Nostalgie over taaltechnologie

Van rekenmachine tot taalautomaat. Leonoor van der Beek. Uitgever: Rijksuniversiteit Groningen. 206 blz. Bestellen kan bij g.j.m.van.noord@rug.nl. Gratis downloaden kan op www.let.rug.nl/vannoord/TST-Geschiedenis

‘Je kunt niet iets bouwen dat nog niet is uitgevonden’, zegt de computer-taalkundige Steven Krauwer in het boek Van rekenmachine tot taalautomaat. Toch was dat precies wat er gebeurde. En wat eigenlijk nog steeds gebeurt. Sinds de computer bestaat, wordt er met man en macht gewerkt aan vertaalprogramma’s, zonder dat iemand precies weet hoe je die moet bouwen.

In de begintijd werd gedacht dat een automatisch vertaalsysteem gebaseerd moest zijn op formele regels die lijken op de grammaticale regels van taal. Wat de computer moest doen, zou lijken op wat mensen doen. Maar vaak bleek een systeem met allerlei niet-taalkundige ad-hocoplossingen beter te werken dat een systeem met mooie grammaticale regels.

In de jaren negentig koos men daarom voor een andere aanpak. De computer moest het voortaan maar op zijn eigen manier doen: het pijlsnel doorzoeken en analyseren van enorme hoeveelheden tekst. ‘No data like more data’. Op dat idee zijn de huidige vertaalprogramma’s gebaseerd: ze vergelijken op grote schaal parallelle tekstcorpora (vertaalde tekst naast originele tekst) met elkaar en trekken daar conclusies uit die statistisch van aard zijn: wat zijn de mogelijke vertalingen van een bepaald woord of een bepaald stukje zin? En wat is daarvan, gezien de context, de meeste waarschijnlijke?

Die statistische vertaalprogramma’s werken overigens nog steeds heel gebrekkig. De geïnteresseerde lezer kan zich daar gemakkelijk van vergewissen, door op translate.google.com een stukje Nederlands of Engels automatisch te laten vertalen.

Van rekenmachine tot taalautomaat vertelt de geschiedenis van de taaltechnologie in Nederland en Vlaanderen, met veel aandacht voor de mensen die het eerste pionierswerk deden. Iedereen die wat betekend heeft in deze sector komt aan bod en liefst ook aan het woord. Maar hoe de technologie, waar deze mensen zo gedreven over vertellen, precies werkt, wordt niet altijd duidelijk uitgelegd.

Veel van wat er in de eerste decennia in elkaar geknutseld werd, behoort al weer tot een soort digitale Middeleeuwen. Het werd geschreven voor systemen die al lang verouderd zijn. Van Rosetta, een vertaalsysteem uit de jaren tachtig, rest haast niets meer. ‘Toen het project op zijn eind liep zijn de grammaticaregels nog wel gebrand op cd. Maar het is niet meer demonstrabel.’ Over ditzelfde Rosetta: ‘Het vierde vertaalproject in het Nederlandse taalgebied in de jaren tachtig staat boven alles bekend om zijn schoonheid.’ Ja, ook taaltechnologie kan gevoelens van nostalgie oproepen.

De overheid, bedrijven als Philips en Siemens, en ook de Europese Unie hebben in de loop der jaren enorm veel geld gestoken in dit ‘bouwen van iets dat nog niet is uitgevonden’. Computer-taalkundige Brandt Corstius zei begin jaren zestig al dat het onmogelijk was om een goed werkende vertaalautomaat te maken – althans in de komende honderd jaar. En eigenlijk wisten alle taalkundigen en taaltechnologen wel hoe ontzettend moeilijk dat was. De geldschieters niet. Die hebben dat langzaam zelf moeten ontdekken.

Berthold van Maris