De techreuzen werken aan krachtige tolk-apps. Die moeten simultaan tolken en live ondertitelen in de taal van uw keuze.
Hoe werkt een tolk-app? Wat kan hij al? En wat moet hij nog leren?
Joachim Ganseman, IT-consultant bij Smals Research, geeft u een kijkje achter de schermen en onder de motorkap.
Brussel, Joachim Ganseman - Snel een tekstje vertalen is de laatste jaren een makkie geworden, zeker als de vertaling niet 100% accuraat hoeft te zijn. Met dank aan Google Translate, Microsoft Translator, DeepL of de eTranslation-tool van de EU.
Door de snelle opkomst van deze technologieën verandert het werk van de professionele vertalers. En de technologische ontwikkelingen ontgaan natuurlijk ook de tolken niet. Komt de AI-tolk eraan?
De AI-vertaler
Vertaalmachines gebaseerd op neurale netwerken (NMT) krijgen een plek in professionele CAT-omgevingen (Computer Assisted Translation), naast al bestaande hulpmiddelen zoals vertaalgeheugens (Translation Memories), waarmee eerdere vertalingen hergebruikt kunnen worden.
Zo verschuift de taak van de vertaler meer richting supervisie: nalezen en corrigeren waar vertaalmachines nog problemen hebben: homoniemen, spreekwoorden, woordgrappen, emotionele nuance, stijlkenmerken, culturele referenties, enz.
Beëdigde vertalingen moeten vanzelfsprekend nog altijd onder de eindverantwoordelijkheid van een mens vallen.
Zoals we eerder al schreven: zonder context is het voor een vertaalmachine moeilijk om de juiste betekenis te selecteren.
De AI-tolk
Simultaantolkdiensten zijn belangrijk: denk aan internationale vergaderingen, diplomatiek overleg, ondertiteling van live debatten op televisie, etc.
Simultaantolken werken onder hoge tijdsdruk: ze moeten hun vertaling zo goed als realtime produceren, zelfs als een deel van de context nog ontbreekt. Tolken gebeurt dan ook op best-effort-basis.
Tolkvaardigheden verschillen zo sterk van vertaalvaardigheden dat ook de opleidingen tot tolk of vertaler fundamenteel anders ingericht worden.
De technologische vooruitgang met de vertaalmachines is ook de tolken uiteraard niet ontgaan. Om voor simultaantolken een vertaalmachine (die tekst naar tekst vertaalt) te kunnen gebruiken, moet je eerst spraak omzetten in tekst. Dat is het domein van de speech-to-text (STT) engines, maar die hebben hun eigen beperkingen, waar mijn collega Bart Vanhalst al over publiceerde.
Google gooide dan ook hoge ogen bij de presentatie van de tolkmodus van Google Translate. Die is ondertussen naadloos ingewerkt in smart speakers en mobiele apps met Google Assistant. Microsoft volgde op de voet met hun Translator, die ook vergaderingen tussen meerdere personen kan begeleiden, waarbij iedereen in de eigen moedertaal toegesproken wordt. Microsoft gooide er gelijk plugins voor o.a. Powerpoint tegenaan, waarmee een presentatie live ondertiteld kan worden in een andere taal, op voorwaarde dat de spreker duidelijk articuleert en standaarduitspraak hanteert.
Ook moderne hardwarematige vertaalcomputers kregen al updates om spraakherkenning te integreren en gebruik te maken van cloud-based vertaalmachines.
Een blik achter de schermen
Zo goed als al deze tolk-apps werken in dialoogvorm. Het systeem wacht tot een zin volledig is uitgesproken, voordat het met de vertaling begint. Een belangrijke reden hiervoor is het verschil in woordvolgorde tussen talen: soms moet het einde van de zin afgewacht worden om het begin van de zin in een andere taal te kunnen vormen. Neem dit voorbeeld, vertaald met DeepL:
Ik ben afgelopen zaterdag nog snel even naar Antwerpen gegaan
Je me suis rendu rapidement à Anvers samedi dernier
Als men echt zo weinig mogelijk vertraging of latency wil en bijgevolg al een aanzet tot vertaling wil geven nog voordat een zin volledig is uitgesproken, dan moet het systeem de mogelijkheid hebben om de vertaling achteraf nog aan te passen. Het is sowieso een goed idee om een machinevertaalde tekst minstens één post-editing te geven. Dat postediteren kan eventueel ook deels automatisch.
Bij automatisch simultaantolken is de trade-off: hoe minder latency men wil, hoe groter het risico dat men al vertaalde woorden nogmaals zal moeten verwerken.
Herevaluatie in spraakherkenning: op basis van latere input worden de waarschijnlijkheden van eerdere mogelijkheden herzien. Afbeelding (c) B. Lecouteux et al. “Generalized driven decoding for speech recognition system combination”, 2008
Achter de schermen doen Automatic Speech Recognition engines dat ook al bij de transcriptie van audio: naarmate er meer fonemen worden herkend, herberekent het systeem continu wat het meest waarschijnlijke woord was dat uitgesproken werd.
Bij automatische transcriptie of ondertiteling van audio zijn ook segmenteren en filteren (van euh en andere stopwoorden) belangrijke uitdagingen die in een editing-fase aangepakt moeten worden. Dat is duidelijk te zien in deze demonstratie van BBC R&D. Ook aarzelingen en herhalingen zijn in natuurlijke spraak courant, maar je wil ze niet lezen in transcripties of in vertalingen van transcripties. Eigennamen of datums wil je dan weer wel correct herkend hebben.
Microsoft vat alles samen in het volgende diagram van een speech-to-speech vertaalsysteem:
Tussen spraak begrijpen en vertalen zitten nog enkele tussenstappen om de tekst te “normaliseren”. Afbeelding (c) Microsoft
In de praktijk
Toch worden er al moedige pogingen ondernomen om automatisch simultaantolken in de praktijk te laten werken. Veelbelovend is deze automatische ondertitelaar / vertaler voor hoorcolleges van de Universiteit van Karlsruhe. Het demofilmpje toont ook de automatische post-editing, die ervoor zorgt dat de vertaling regelmatig een update krijgt. Als dat updaten te vaak gebeurt, kan het voor de lezer wel wat lastig worden om te volgen. Het klaslokaal is een ideale omgeving voor dit soort toepassing, want men mag aannemen dat een professor duidelijk articuleert en standaardtaal hanteert, en dat het publiek veelal zwijgt. Dan nog zijn er allerlei obstakels te overwinnen.
Nederlands?
Hoe staat het met deze technologie voor het Nederlands als brontaal en wat met minder ideale omgevingen? Oordeel zelf door de ondertiteling te activeren bij dit Nederlandstalige filmpje op YouTube en door vervolgens een vertaling in te stellen via de opties “Instellingen -> Ondertiteling -> Automatisch vertalen”. Het is duidelijk dat fouten bij de initiële spraaktranscriptie leiden tot bijkomende fouten in de daaropvolgende vertaling, waarin plots hele stukken wegvallen. Het gebruik van dialect zorgt al helemaal voor een nonsensicaal resultaat. Probeer gerust enkele willekeurige filmpjes uit.
Onderzoekers aan verschillende universiteiten verrichten onderzoek naar end-to-end speech-to-text vertaalsystemen, waarbij spraaktranscriptie en vertaling worden geïntegreerd (zie bv. deze recente paper of de Google Translatotron). De output van deze geïntegreerde systemen benadert stilaan die van de zogenaamde cascade-systemen. Er zijn echter grote hoeveelheden specifiek voor dat doel geannoteerde data (zoals deze) voor nodig, wat een verdere snelle vooruitgang danig hypothekeert. Ook het evalueren van machineoutput is onderwerp van debat: wanneer is een vertaling "beter" dan een andere? Daarover uitweiden zou ons hier te ver leiden, maar de geïnteresseerde lezer vindt hier een uitgebreide introductie.
Doe het zelf
Er bestaan wel al tools die tolken helpen met het oplossen van specifieke problemen. Zo zijn er tools die focussen op de onmiddellijke herkenning van afzonderlijke woorden in iemands spraak. InterpretBank is zo’n tool. Hij detecteert jargon of andere moeilijke terminologie en toont de simultaantolk onmiddellijk de correcte vertaling. De tolk hoeft dan geen specialist meer te zijn in het gespreksonderwerp en heeft direct de exacte vertaling van keywords beschikbaar.
Wie zelf aan de slag wil met componenten voor spraakherkenning, postprocessing en machine translation, kan de zoektocht beginnen bij projecten zoals Mozilla Deepspeech, CMUSphinx of MarianNMT. Datasets om vertaalmachines te trainen zijn o.a. te vinden op OpenSLR.org.
Conclusie
Op dit moment zijn cascade-systemen, waarbij aparte componenten voor spraakherkenning, vertaling en spraaksynthese aan elkaar worden geschakeld, de meest robuuste methodes voor speech-to-speech vertaling.
Het probleem van de woordvolgorde is fundamenteel. Men zal bijna altijd een vertraging van een zinslengte moeten tolereren, als men een robuuste automatische vertaling wil genereren die achteraf geen grote aanpassingen meer behoeft – ook bij geïntegreerde speech-to-speech-systemen.
Joachim Ganseman is IT-consultant bij Smals Research, een team van negen onderzoekers bij Smals (Brussel). Smals levert ICT-diensten aan overheid en organisaties in de sociale sector. Het Smals Research-team moedigt innovatie aan en ondersteunt de invoering van nieuwe technologieën.
Joachim Ganseman concentreert zich bij Smals op AI-gerelateerde onderwerpen, waaronder Natural Language Processing (NLP) en Conversational Interfaces, en hun mogelijke toepassingen in overheidscontext. Hij is medestichter en co-organisator van de Belgische Informatica-olympiade, waarvoor hij in 2016 de jaarprijs wetenschapscommunicatie van de Koninklijke Vlaamse Academie voor Wetenschappen van België in ontvangst mocht nemen. Hij is ook een uitstekend pianist.
De auteur schreef dit artikel in eigen naam en neemt geen standpunt in namens Smals. Hij bedankt Joan Van Poelvoorde, vertegenwoordiger RSZ bij de federale G-clouddienst Babelfed, en prof. dr. Bart Defrancq, hoofd van de tolkopleidingen van de UGent, voor hun waardevolle input voor dit artikel.