Peter Spyns: Ja, het SoNaR-corpus is het meesterstuk van het programma. SoNaR is de afkorting van Stevin Nederlandstalig Referentiecorpus. Het is een verzameling van allerlei teksten van na 1954 die ruim 500 miljoen woorden bevat. Alle teksten werden automatisch getokeniseerd, dit wil zeggen in tokens of afzonderlijke woorden opgesplitst. Aan al die woorden werd automatisch informatie over o.a. de woordsoort, in het Engels part of speech (POS) genoemd, het lemma en diverse grammaticale kenmerken toegekend. In het jargon heet dit annoteren. Ook de eigennamen werden geannoteerd.
De Taalsector: Wat moeten we nog meer weten over dat meesterstuk?
Peter Spyns: Het corpus bestaat in feite uit twee delen: SoNaR-500 en SoNaR-1.
Over SoNaR-500 had ik het net. SoNaR-1 is grotendeels een subset van SoNaR-500 en bevat 1 miljoen woorden. SoNaR-1 werd voorzien van verschillende soorten semantische annotaties, nl. named entity labels, coreferenties en spatiële en temporele relaties. Alle annotaties van SoNaR-1 werden handmatig geverifieerd.
SoNaR is daarom een zeer rijke bron van informatie en bruikbaar zowel voor onderzoek naar taal en taalgebruik als voor de ontwikkeling van taaltechnologie
De Taalsector: Nadat we onze lezers al hadden opgeroepen om hun website, nieuwsbrief en personeelskrant voor het goede SoNaR-doel aan de wetenschap af te staan, riepen we ze een paar jaar geleden ook op om hun sms’en aan de wetenschap te doneren. Dat was ook voor SoNaR?
Peter Spyns: Inderdaad, er werd een grote verzameling sms’jes en chattaal aangelegd. De tweets, chats en sms"en die in het kader van SoNaR verzameld werden zijn apart beschikbaar als SoNar Nieuwe Media Corpus.
De Taalsector: STEVIN zou oorspronkelijk tot 2009 lopen. In 2010 was er al een – zeer positieve – onafhankelijke eindevaluatie. En in 2012 verscheen er al een uitgebreid Engelstalig resultatenboek. Is het hele STEVIN-programma met al zijn projecten nu echt helemaal afgerond?
Peter Spyns: Ja, alle projecten zijn inhoudelijk helemaal afgerond en de resultaten zijn opgeleverd. Zoals het de bedoeling was, worden STEVIN-resultaten nu hergebruikt.
De Taalsector: Kan taal- en spraaktechnologie bv. ook bijdragen om mensen met een visuele, auditieve of andere beperking te helpen?