Verleden en toekomst van de computerlinguïstiek op #CLIN25

"Spraaktechnologie is niet langer gebaseerd op corpora met een paar tientallen uren spraak. Google, Microsoft en Nuance doen het nu met duizenden uren spraak, opgenomen in operationele diensten, wat het onmogelijk maakt om data te delen met buitenstaanders. Dat, en het feit dat voor de verwerking van duizenden uren spraak computerpower nodig is die ver voorbij gaat aan wat universiteiten kunnen opbrengen, heeft het belang van universitair onderzoek naar automatische spraakherkenning voor het bedrijfsleven gemarginaliseerd."

Dat zegt Lou Boves aan de vooravond van de speciale 25ste editie van de conferentie Computational Linguistics in the Netherlands (CLIN), het jaarlijkse forum voor computerlinguïstiek in Vlaanderen (België) en Nederland dat op 5 en 6 februari 2015 in Antwerpen plaatsvindt. Lou Boves werkt aan de Radboud Universiteit Nijmegen en is morgen een van de éminences grises die voor de gelegenheid op 25 jaar computerlinguïstiek in Vlaanderen en Nederland terugblikken.

"Je zou kunnen zeggen dat de voorstanders binnen de universiteit van data-gebaseerde methoden aan hun succes ten onder gegaan zijn. En ik zie in de verwerking van geschreven taal hetzelfde gebeuren. Dit alles roept de vraag op wat de computerlinguïstiek kan en moet doen om haar relevantie binnen de universiteiten, en met name binnen de geesteswetenschappen te behouden," gaat Lou Boves verder.

De eerste dag van de CLIN-conferentie wordt een stand van zaken van de computerlinguïstiek in Vlaanderen en Nederland opgemaakt. Verleden, heden en toekomst komen aan bod. Een aantal "veteranen" blikt vanuit de persoonlijke belangstelling terug op 25 jaar computerlinguïstiek. Voor wie de voorbije periode in vogelvlucht wil overschouwen, zijn hun inleidende beschouwingen op de conferentiewebsite en in het "book of abstracts" zeer lezenswaard.

Jan Landsbergen (Universiteit Utrecht) blikt morgen terug op het Rosettaproject van Philips. Philips investeerde van 1980 tot 1992 in machinaal vertalen. Wat zag Philips daar toen in? Wat was de bedoeling? Waarom is het project in 1992 beëindigd? Wat heeft het opgeleverd?

Luc Steels (AI Lab VUB, ICREA Barcelona) keert morgen terug naar het begin van de jaren zeventig, toen Vlaanderen en Nederland voor computertaalkunde vrijwel brakke grond waren. Morgen vertelt Luc Steels over hoe de eerste kiemen konden beginnen bloeien, welke problemen werden aangepakt en met welke (povere) computerinfrastructuur er toen moest worden gewerkt. Maar uit die eerste kiemen zijn volgens Luc Steels geweldige dingen voortgekomen. Hij zal het dan ook hebben over het onderzoek in taal waar hij de laatste tijd mee bezig geweest is: computermodellen bouwen voor de oorsprong en evolutie van taal, en manieren vinden om open interactie tussen robots en mensen mogelijk te maken. Deze (naar zijn zeggen absurd) ambitieuze doelstelling vraagt nieuwe doorbraken op bijna alle terreinen van de computerlinguïstiek en, zo zal hij betogen, vooral een terugkeer naar fundamenteel onderzoek.

Ook experimenteel psycholoog Gerard Kempen (MPI Nijmegen, Universiteit Leiden) zal het publiek iets van zijn recente werk laten zien, maar niet zonder eerst te vertellen hoe hij medio jaren zestig geïnteresseerd raakte in de vraag hoe mensen de inhoud van zinnen en teksten kunnen onthouden en reproduceren. "Helaas had de psychologie daarover in die tijd weinig te bieden, en al spoedig ontdekte ik dat ik te rade moest gaan bij de linguïstiek, en meer nog bij een toen geheel nieuw vakgebied: Artificiële Intelligentie. Daar stond immers de representatie van kennis centraal (o.a. inhoud van zinnen en teksten)."

Remko Scha (Universiteit van Amsterdam) vertelt morgen over twee "mislukte" projecten (PHLIQA & DOP) uit de jaren tachtig. Terug in het heden betoogt Remko Scha dat de huidige statistische en neurale benaderingen van taalverwerking veel te weinig rekening houden met belangrijke structurele eigenschappen van taal.

Frank Van Eynde (KU Leuven) ten slotte herinnert zich de tijd, "niet eens zo lang geleden, dat de computertaalkunde in de lage landen zich liet inspireren door methodes en inzichten uit de formele taalkunde: de grootschalige projecten voor automatische vertaling van de jaren 80 bijvoorbeeld waren op een linguïstische leest geschoeid, cf. Eurotra, Metal, Rosetta, BSO".
In de tweede helft van de jaren 90 keerde volgens Frank Van Eynde het tij. "De relevantie van formele taalkunde voor natuurlijke taalverwerking werd in vraag gesteld en vaak ontkend. Data werden belangrijker dan generalisaties. Er werden corpora samengesteld en geannoteerd. De technologie was geheel probabilistisch of een mengeling van linguïstische en statistische modellen."
Volgens Frank Van Eynde zijn we op dit moment in een situatie beland waarin de verhouding tussen taalkunde en computertaalkunde evenwichtiger is: "De computertaalkunde laat zich selectief en sporadisch inspireren door de formele taalkunde, maar oefent zelf ook invloed uit op die laatste."

Overheid
En dan is er nog de overheid.
De Nederlandse en de Vlaamse overheid voeren nu al 35 jaar een taal- en spraaktechnologiebeleid (TST-beleid). En ze financieren TST-ontwikkelingen. En nu?
Alice Dijkstra van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) en Peter Spyns van het departement Economie, Wetenschap en Innovatie (EWI) van de Vlaamse overheid gooien vanuit een kort historisch overzicht van overheidsfinanciering, aangevuld met nog niet zo oude beleidssessies en huidige initiatieven (o.a. een bibliometrische analyse), enkele ideeën voor de toekomst op.

Toekomst
Een paneldebat over de toekomst met Dong Nguyen (Universiteit Twente), Tim Van de Cruys (IRIT-CNRS), Eva D"Hondt (LIMSI-CNRS), Folgert Karsdorp (Meertens) en moderator Mike Kestemont (UAntwerpen) sluit het formele deel van de eerste conferentiedag af.

Op vrijdag 6 februari biedt de tweede conferentiedag van CLIN25 een programma van een negentigtal presentaties, demo's en posters, en een gastlezing door Tony Veale (University College Dublin). Die laatste zal ongetwijfeld inspireren met een lezing over Computational Creativity en twitter bots (mét taalkundige en conceptuele inhoud): "The Revolution will be Automated".

Op de website van de conferentie is een uitgebreid "book of abstracts" (135 blz.) in pdf te downloaden.

Meer info: http://www.clips.uantwerpen.be/clin25/home

Meer info: http://www.clips.uantwerpen.be/~ben/sites/default/files/book_of_abstracts_final.pdf

Meer info: http://www.clinjournal.org/