11,4 miljoen euro. Zo veel belastinggeld legden Vlaanderen en Nederland in september 2004 - exact tien jaar geleden - op tafel om ervoor te zorgen dat het Nederlands digitaal zou kunnen overleven.
Of een taal digitaal overleeft, hangt af van de mate waarin een aantal essentiële digitale voorzieningen aanwezig zijn die je nodig hebt om een toepassing met taal- of spraaktechnologie te ontwikkelen – of dat nu een spellingchecker is, een vertaalmachine, een gps met stem, een gesproken krant voor blinden, enz. Basisgrondstoffen die je daarvoor telkens weer nodig hebt, zijn bijvoorbeeld een computerlexicon of een grote digitale collectie teksten of opnames van gesproken taal. Al die grondstoffen samen vormen de digitale basisinfrastructuur waarmee een taal digitaal kan overleven.
Nog beter is het natuurlijk als de grondstoffen centraal verzameld en beheerd worden en als ze zonder veel poespas gebruikt en hergebruikt kunnen worden. Zodat iedereen die iets met taal- of spraaktechnologie wil doen, niet telkens weer het wiel moet uitvinden. Dat zou natuurlijk niet efficiënt zijn, moeten ze tien jaar geleden gedacht hebben. Daarom is er vandaag al tien jaar een uniek loket waar iedereen die iets wil doen met taal- of spraaktechnologie kwaliteitsvolle basisgrondstoffen kan gaan halen om er leuke en waardevolle producten of diensten mee te maken. Dat unieke loket heet de TST-Centrale (Centrale voor Taal- en Spraaktechnologie) en in haar etalage liggen een tachtigtal zulke grondstoffen: vooral corpora en lexica, maar ook software en digitale woordenboeken. Ongeveer de helft van die grondstoffen komt uit één programma: STEVIN, dat staat voor Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands.
Wat is er van STEVIN geworden? Hebben we waar voor ons geld gekregen? Wie doet daar nu eigenlijk iets mee? En wat? Heeft daar verder nog iemand voordeel bij? In de taalsector, en daarbuiten?
De Taalsector vroeg het aan STEVIN-coördinator Peter Spyns en Remco van Veenendaal van de TST-Centrale. Taaltechnologiebedrijf GridLine (uit Amsterdam) getuigt.
Heeft STEVIN het Nederlands gered :-)
De Taalsector: Wat is of was het STEVIN-programma precies en wat was de bedoeling?
Peter Spyns: STEVIN had een tweeledig doel. Het eerste doel was het stimuleren van de taal- en spraaktechnologische sector in Vlaanderen en Nederland door het financieren van strategisch onderzoek, het stimuleren van de vraag naar taal- en spraaktechnologische producten en het bevorderen van netwerken en kennisoverdracht. Op die manier kon de innovatiecapaciteit van deze sector verder worden vergroot.
Peter Spyns: Het tweede doel was het realiseren van een adequate digitale taalinfrastructuur voor het Nederlands, zodat de positie van het Nederlands in de moderne informatie- en communicatiewereld versterkt wordt. Een digitale taalinfrastructuur is het geheel van basistaalvoorzieningen of ‘grondstoffen’ die nodig zijn om Nederlandstalige taal- en spraaktechnologische toepassingen te kunnen ontwikkelen. Het gaat hierbij zowel om data zoals corpora van geschreven en gesproken taal, computerlexicons of elektronische woordenboeken als om tools zoals trainingsmateriaal en software om de data te verrijken.
De Taalsector: Wie legde destijds het geld voor STEVIN op tafel?
Peter Spyns: STEVIN ging tien jaar geleden van start, op 15 september 2004. Eind vorig jaar werden de allerlaatste resultaten opgeleverd. Het programma werd gecoördineerd en financieel beheerd door de Nederlandse Taalunie. Het totaalbudget bedroeg 11,4 miljoen euro en werd gezamenlijk door de Vlaamse en de Nederlandse overheden gedragen. De Vlaamse overheid droeg een derde bij (3,8 miljoen euro), de Nederlandse overheid twee derde (7,6 miljoen euro).
De Taalsector: Het STEVIN-programma heeft heel wat materiaal opgeleverd. De bedoeling is dat dit voor iedereen die het wil gebruiken beschikbaar is en blijft. Wie zorgt daarvoor?
Peter Spyns: Het beheer van alles wat STEVIN heeft opgeleverd, is een taak van de TST-Centrale van de Nederlandse Taalunie. De TST-Centrale is het Vlaams-Nederlandse kennis- en distributiecentrum voor Nederlandstalige tekstverzamelingen, woordenlijsten, wetenschappelijke woordenboeken, spraakcorpora en taal- en spraaktechnologische software. De maatschappelijke missie van de TST-Centrale bestaat erin bij te dragen aan een sterke positie van het Nederlands in de informatiemaatschappij. Daarom zijn de producten in de catalogus van de TST-Centrale bijna altijd gratis beschikbaar voor onderzoeksdoeleinden. Sommige producten zijn direct online raadpleegbaar. Voor andere producten kan men een licentie aanvragen of zelfs meteen online afsluiten. De TST-Centrale beheert, onderhoudt en distribueert trouwens ook materialen van andere partijen.
De Taalsector: Verspreidt de TST-Centrale hierover informatie?
Peter Spyns: Taalprofessionals die nieuws willen ontvangen over de TST-Centrale en over de ontwikkelingen binnen de taal- en spraaktechnologie in Nederland en Vlaanderen kunnen zich aanmelden via
De Taalsector: Bij zulke grote onderzoeksprogramma’s hebben onderzoekers en onderzoeksinstellingen vaak het grootste voordeel. Was dat ook zo bij STEVIN, of deden er ook bedrijven mee?
Peter Spyns: Het was vanaf het begin de bedoeling dat ook het bedrijfsleven de resultaten mee moest kunnen aanwenden om innovaties door te voeren in het eigen aanbod van producten en diensten. Daarom was het zo belangrijk dat STEVIN juist basismaterialen zou opleveren, de grondstoffen die nodig zijn voor onderzoek, ontwikkeling en toepassingen in de taal- en spraaktechnologie …
De Taalsector: …, en die voor meerdere doelen en toepassingen gebruikt en hergebruikt kunnen worden?
Peter Spyns: Inderdaad. Om nuttig te zijn voor hergebruik moeten de materialen – of dat nu data of tools zijn – voldoende generiek en breed zijn.
De Taalsector: Geef eens een paar voorbeelden van zulk hergebruik.
Peter Spyns: Er werden bijvoorbeeld materialen aangeleverd die nuttig zijn voor semiautomatische vertaling, voor ruisonderdrukking bij spraakherkenning, voor opinieonderzoek in sociale media, voor een betere herkenning en uitspraak van eigennamen, voor de studie van allerlei taalkundige fenomenen in het Nederlands, voor accurater zoeken op het internet en voor onderzoek van uitspraak door kinderen en ouderen.
De Taalsector: Er is ook een corpus gemaakt van niet minder dan 500 miljoen woorden?
Peter Spyns: Ja, het SoNaR-corpus is het meesterstuk van het programma. SoNaR is de afkorting van Stevin Nederlandstalig Referentiecorpus. Het is een verzameling van allerlei teksten van na 1954 die ruim 500 miljoen woorden bevat. Alle teksten werden automatisch getokeniseerd, dit wil zeggen in tokens of afzonderlijke woorden opgesplitst. Aan al die woorden werd automatisch informatie over o.a. de woordsoort, in het Engels part of speech (POS) genoemd, het lemma en diverse grammaticale kenmerken toegekend. In het jargon heet dit annoteren. Ook de eigennamen werden geannoteerd.
De Taalsector: Wat moeten we nog meer weten over dat meesterstuk?
Peter Spyns: Het corpus bestaat in feite uit twee delen: SoNaR-500 en SoNaR-1.
Over SoNaR-500 had ik het net. SoNaR-1 is grotendeels een subset van SoNaR-500 en bevat 1 miljoen woorden. SoNaR-1 werd voorzien van verschillende soorten semantische annotaties, nl. named entity labels, coreferenties en spatiële en temporele relaties. Alle annotaties van SoNaR-1 werden handmatig geverifieerd.
SoNaR is daarom een zeer rijke bron van informatie en bruikbaar zowel voor onderzoek naar taal en taalgebruik als voor de ontwikkeling van taaltechnologie
De Taalsector: Nadat we onze lezers al hadden opgeroepen om hun website, nieuwsbrief en personeelskrant voor het goede SoNaR-doel aan de wetenschap af te staan, riepen we ze een paar jaar geleden ook op om hun sms’en aan de wetenschap te doneren. Dat was ook voor SoNaR?
Peter Spyns: Inderdaad, er werd een grote verzameling sms’jes en chattaal aangelegd. De tweets, chats en sms"en die in het kader van SoNaR verzameld werden zijn apart beschikbaar als SoNar Nieuwe Media Corpus.
De Taalsector: STEVIN zou oorspronkelijk tot 2009 lopen. In 2010 was er al een – zeer positieve – onafhankelijke eindevaluatie. En in 2012 verscheen er al een uitgebreid Engelstalig resultatenboek. Is het hele STEVIN-programma met al zijn projecten nu echt helemaal afgerond?
Peter Spyns: Ja, alle projecten zijn inhoudelijk helemaal afgerond en de resultaten zijn opgeleverd. Zoals het de bedoeling was, worden STEVIN-resultaten nu hergebruikt.
De Taalsector: Kan taal- en spraaktechnologie bv. ook bijdragen om mensen met een visuele, auditieve of andere beperking te helpen?
Peter Spyns: Ja, dankzij STEVIN zijn er verschillende mooie toepassingen uitgewerkt. Een fijn voorbeeld is de gratis internetomgeving van vzw WAI-NOT uit Leuven, waar jongeren met een verstandelijke beperking veilig kunnen internetten. Ze hoeven niet te kunnen lezen of schrijven om bijvoorbeeld een mailtje te sturen of te chatten. In de plaats daarvan selecteren ze pictogrammen die in het Nederlands worden vertaald en vice versa. Door meer woorden (synoniemen, hyperoniemen) aan de pictogrammen te koppelen vergroot het bereik van de gebruikte pictogrammen. Zonder de basisvoorziening van de lexicaal-semantische databank Cornetto was dit niet mogelijk geweest. Dit kwam tot stand dankzij samenwerking met het Centrum voor Computerlinguïstiek van de KU Leuven.
Een ander voorbeeld is de Audiokrant. Bij vzw Kamelego uit Groot-Bijgaarden kunnen blinden en slechtzienden een abonnement nemen op een gesproken dagblad of audiokrant. Zonder tekst-naar-spraaktoepassing is het onmogelijk om elke dag opnieuw een gedrukte krant integraal om te zetten in een gesproken versie. Bovendien is de audiokrant met stemcommando’s ’doorbladerbaar’. In 2008 was de Audiokrant een wereldprimeur! Ondertussen zijn al zeven Vlaamse audiokranten dagelijks beluisterbaar.
Voor dyslectici ontwikkelde het bedrijf Sensotec uit Varsenare dan weer een product, WoDy, dat zich op je tekstverwerker ent en o.a. de normale spellingscorrector vervangt door een geheel van woordvoorspellings- en correctiealgoritmes die veel beter afgestemd zijn op mensen met dyslexie en/of dysorthografie. Mede met dit product werd het bedrijf in 2010 door Unizo Noord-West-Vlaanderen tot meest creatieve ondernemer verkozen.
De Taalsector: Zijn er nog voorbeelden van bedrijven die momenteel al gebruikmaken van software of materialen die uit het STEVIN-project komen en bij de TST-Centrale te verkrijgen zijn?
Peter Spyns: In de eerste plaats wil ik graag de VRT vermelden. Nu al gebruikt de VRT taal- en spraaktechnologie om Nederlandstalige programma’s te ondertitelen in het Nederlands. Dat gaat zo: de ondertitelaar bekijkt het programma, dicteert een ondertitel, en een spraakherkenningsprogramma zet de gesproken ondertitel om naar de geschreven versie die op je scherm verschijnt. Deze manier van werken is evenwel zeer tijdrovend. Een demonstratieproject van STEVIN toonde aan dat er met semiautomatisch ondertitelen nog 20 tot 40 procent tijdswinst te realiseren valt, door nog meer spraaktechnologie toe te passen in een nog verder geautomatiseerd werkproces. Vandaar dat de VRT nu in het kader van ’innovatief aanbesteden’ (een ondersteuningsmaatregel van de Vlaamse overheid) een traject heeft opgezet om innovatieve ondertitelingssoftware met veel meer TST-componenten erin te laten ontwikkelen om al haar programma’s te ondertitelen met een zo beperkt mogelijke menselijke tussenkomst.
De Taalsector: De TST-Centrale stuurde vorig jaar een persbericht uit om te melden dat Google klant is van de TST-Centrale.
Peter Spyns: Ja, internetbedrijf Google gebruikt LASSY-klein (Large Scale Syntactic Annotation of Written Dutch). LASSY-klein is een verzameling van één miljoen woorden die voorzien zijn van handmatig gecontroleerde grammaticale informatie. Google gaat die gebruiken om de kwaliteit van het Nederlands in Google Translate en andere Googleproducten te helpen verbeteren.
Nu gebruikt Google Translate in de eerste plaats de kracht van het getal om zinnen te vertalen. Hoe vaker een (deel)zin als vertaalcombinatie voorkomt, hoe groter de kans dat die combinatie een goede vertaling is. Deze op statistiek gebaseerde aanpak kan op problemen stuiten, bijvoorbeeld bij talen die niet zo vaak gebruikt worden op het internet of waarvoor onvoldoende vertaalde combinaties van (deel)zinnen te vinden zijn. Google zal LASSY wellicht gebruiken om Google Translate onder meer verwijswoorden te leren herkennen zodat er minder woordelijk wordt vertaald en meer in grammaticale samenhang.
De Taalsector: Spraaktechnologie is tegenwoordig overal. En we zien zowel spraakherkenning als spraakgeneratie.
Peter Spyns: Spraaktechnologie is ook in toenemende mate in de wagen te vinden. Waar we in de jaren 80 alleen in een tv-reeks als ‘Knight Rider’ een pratende auto konden zien, hebben de wagens van vandaag spraakgestuurde bediening van bv. ruitenwissers, en herkent de navigatiesoftware van bv. Mercedes het adres van bestemming in het Nederlands. Intussen heeft Ford ook spraakgeneratie die sms’jes en berichten op je gsm en smartphone luidop kan uitspreken, zodat je de handen op het stuur kan houden.
Bij dit soort spraaktechnologie spelen twee STEVIN-projecten een rol: Autonomata en Autonomata Too. Ze hebben materialen ontwikkeld die het herkennen en uitspreken van eigennamen helpen verbeteren. De uitspraak van eigennamen volgt immers een eigen systematiek die meermaals afwijkt van de algemene moderne uitspraakregels. Deze materialen zijn ook nuttig in een contactcenteromgeving en voor automatische receptionisten die bellers op basis van een uitgesproken naam doorverbinden. Door deze projecten kan nu ook beter rekening gehouden worden met de manier waarop buitenlanders Nederlandstalige namen.
Tal van STEVIN-producten worden vandaag actief gebruikt en doorontwikkeld. Dat zegt Remco van Veenendaal, projectleider bij de Nederlandse Taalunie.
Remco van Veenendaal: Peter heeft al veel voorbeelden gegeven van het gebruik van STEVIN-resultaten. We kunnen daar nog honderden onderzoekers, studenten en particulieren aan toevoegen. Als TST-Centrale hebben we in totaal zo’n duizend licenties afgesloten voor de taalmaterialen uit onze catalogus. Daar mag iedereen die aan STEVIN heeft bijgedragen trots op zijn.
Een beetje technisch misschien, maar het syntactisch geannoteerde corpus LASSY is opgenomen in de Leuvense taalkundige zoektool GrETEL (Greedy Extraction of Trees for Empirical Linguistics). Daar is nu een door de Taalunie gefinancierde tweede versie van gemaakt. Ook het melden waard is dat SoNaR online beschikbaar komt via het CLARIN-NL-project OPENSoNaR (Online Personal Exploration and Navigation of SoNaR). En aan de Vrije Universiteit Amsterdam wordt momenteel de laatste hand gelegd aan een Open Dutch WordNet, de opensourcevariant van STEVIN-resultaat Cornetto. Dat zijn waardevolle ontwikkelingen. En dan heb ik het nog niet eens over de tientallen organisaties die STEVIN-resultaten gebruiken bij hun onderzoek of onderwijs.
Maar let op: nu STEVIN is afgelopen zijn we niet klaar met het vergroten van de overlevingskansen van het Nederlands in de digitale wereld. Dat geeft ook het whitepaper “Het Nederlands in het digitale tijdperk” van META-NET aan. Het gaat goed met het Nederlands, o.a. dus dankzij STEVIN, maar we moeten blijven investeren in onze taalinfrastructuur. De Taalunie blijft dat doen, waarbij we vooral ook willen laten zien wat er overal allemaal al is en hoe dat gebruikt kan worden.
Niet alleen Google is klant bij de TST-Centrale. Ook dichter bij huis zijn er belangrijke afnemers van STEVIN-materialen. GridLine is gespecialiseerd in taal- en zoekoplossingen voor het Nederlands. Het bedrijf wil mensen makkelijk, efficiënt en prettig laten werken met Nederlandse teksten en documenten. Hallo GridLine?
GridLine: De TST-Centrale levert taalbronnen die wij als klein bedrijf nooit zelf hadden kunnen ontwikkelen. Wij maken producten zoals Klinkende Taal, GridWalker en WoordenlijstBeheer. Daar hebben wij goede taaldata voor nodig. En daarvoor hebben we gelukkig STEVIN en de TST-Centrale.
De Taalsector: Welke materialen nemen jullie bij de TST-Centrale af?
GridLine: LASSY, de grote verzameling teksten die grammaticaal zijn geannoteerd. Wij hebben LASSY onder meer gebruikt om onze POS-tagger te verbeteren, een belangrijke module van de GridLine TaalServer. Met de POS-tagger kunnen wij automatisch teksten grammaticaal analyseren. De POS-tagger doet nu 97,5% goed; dat was 94%. Ook voor herkenning van passiefconstructies, tangconstructies en andere tekstkenmerken hebben wij LASSY ingezet.
Daarnaast gebruiken we ook DAESO, dat data bevat voor het samenvatten van teksten, zinnen en documentverzamelingen. Wij hebben DAESO ingezet voor de Klinkende Taal Leeshulp die helpt bij het lezen van lange teksten; het geeft een samenvatting en streept belangrijke passages automatisch aan.
Ook onze producten voor spellingcontrole, zoeken&vinden, classificatie en terminologie-extractie hebben wij verbeterd met taalbronnen die in STEVIN zijn ontwikkeld.
De Taalsector: Waar zouden jullie staan zonder STEVIN?
GridLine: Voor ons zijn de taalbronnen van STEVIN onmisbaar geweest. Wij hebben onze producten sterk kunnen verbeteren. Onze producten zijn ons kapitaal, en met onze producten kunnen wij veel Nederlandse organisaties en bedrijven beter laten werken met taal, teksten en documenten.
GridLine is gevestigd in Amsterdam. In Nederland hebben de voornaamste ontwikkelaars van taal- en spraaktechnologieën zich professioneel verenigd in de beroepsfederatie NOTaS. In België of Vlaanderen is er geen platform waar ontwikkelaars en (groot)gebruikers van taal- en spraaktechnologie elkaar op gestructureerde basis zien. Dat is allicht een van de redenen dat de Nederlandse TST-bedrijven gretiger materiaal afnemen bij de TST-Centrale dan de Belgische. Het is allicht ook een verklaring voor het feit dat u in dit artikel het enthousiaste relaas van een Nederlandse KMO leest.
10 jaar TST-Centrale
Dat de resultaten van de 38 STEVIN-projecten, waarvan sommige al jaren afgerond zijn, niet gewoon stof liggen te vergaren in een of andere lade – het lot van heel veel onderzoeksprojecten vanaf de dag dat de projectfinanciering stopt, is ongetwijfeld te danken aan de vooruitziendheid waarmee tien jaar geleden tegelijk de TST-Centrale is opgericht. Die kreeg als uitdrukkelijk doel de essentiële digitale taalvoorzieningen voor het Nederlands te verzamelen, te beheren, te onderhouden en te verdelen. De TST-Centrale verzamelde niet alleen data en tools, maar ook expertise en zorgde voor een betrouwbare technische huisvesting voor de verzamelde data en tools. De TST-Centrale verleende in 2013 ongeveer 200 gebruikslicenties.
TST voor het Nederlands op volle toeren?
Het STEVIN-programma is volgens de Nederlandse Taalunie nog steeds een van de waardevolste programma’s die de Taalunie heeft mogen coördineren. De resultaten ervan hebben de positie van het Nederlands in de digitale wereld danig verstevigd. Dat is winst voor het Nederlands en voor alle betrokken partijen, benadrukt de Taalunie.
Waar voor ons geld?
Het is zonder meer dankzij de TST-Centrale dat de 11,4 miljoen euro belastinggeld die Vlaanderen en Nederland in september 2004 voor STEVIN op tafel legden ook in september 2014 nog een goede investering en een reële bijdrage aan de digitale overlevingskansen van het Nederlands in de moderne informatie- en communicatiewereld mag worden genoemd.
Lees ook: Goede punten voor taal- en spraaktechnologieprogramma STEVIN
Lees ook: Kan het Nederlands overleven in het digitale tijdperk? En hoe dan?
Over GrETEL: http://nederbooms.ccl.kuleuven.be/eng/gretel
Over LASSY: http://tst-centrale.org/nl/producten/corpora/lassy-groot-corpus/6-67
Over SoNaR: http://tst-centrale.org/nl/producten/corpora/sonar-corpus/6-85
Over Cornetto: http://tst-centrale.org/nl/producten/lexica/cornetto/7-56
Meer info: http://www.stevin-tst.org
Meer info: www.tst-centrale.org
Download dit artikel in 1 pdf.
(De Taalsector, 7/10/2014)