Vertaalcomputer deugt alleen voor ruwe tekst; Met andere woorden

Wie in het buitenland een hotelkamer wil boeken of een tafel in het restaurant wil bespreken hoeft in de toekomst niet langer in de beduimelde taalgids te kijken. Hij kan gewoon in zijn taal blijven spreken. De vertaalcomputer regelt het allemaal.

Science fiction? Eerder dit jaar vond aan de Carnegie Mellon Universiteit in de Amerikaanse stad Pittsburgh een experiment plaats dat vrijwel alle televisiejournaals en voorpagina's van de kranten haalde. Via een telefoonverbinding konden een Amerikaan, een Japanner en een Duitser in hun eigen taal met elkaar van gedachten wisselen. Een computerprogramma genaamd Janus zorgde voor de vertaling. Toegegeven: veel stelde het niet voor, want de computer verstond slechts vijfhonderd woorden. Maar een technologische doorbraak was het wèl. Zoiets had men nog niet eerder voor elkaar gekregen.

Dertig jaar al wordt onderzoek gedaan naar machinaal vertalen, maar veel heeft het niet opgeleverd. Het grootste probleem is dat de complexiteit van de natuurlijke taal danig wordt onderschat. Dubbelzinnigheden als 'Tijd vliegt als een pijl' worden door computers volkomen verkeerd begrepen. 'Tijd beweegt zich op dezelfde manier als een pijl', was de uitleg die een computer er aan gaf. Bij een vertaling Engels-Russisch-Engels werd de zegswijze 'De geest is gewillig, maar het vlees is zwak' zelfs terugvertaald als 'De wodka is sterk, maar het vlees bedorven', omdat het Engelse woord 'spirit' behalve 'geest' ook 'sterke drank' betekent.

Cryptogrammen

'Mensen houden ervan om met taal te spelen,' zegt Robert E. Frederking van de Carnegie Mellon Universiteit. 'Maar machines niet. Die raken van de kook.' Om die reden laten wetenschappers van de Heriot-Watt Universiteit in Edinburgh computers tegenwoordig zelfs cryptogrammen oplossen. 'Niet om de puzzelaar zijn plezier te ontnemen,' zegt projectleider Hunter Davis, 'maar om computerprogramma's zodanig te verbeteren dat ze straks ook raad weten met taalkundige strijdigheden.'

Tot nu toe is het wetenschappelijk onderzoek naar machinaal vertalen als gezegd één lange lijdensweg geweest. In de Verenigde Staten werd machinaal vertalen al in 1965 op een laag pitje gezet toen normaal vertalen goedkoper bleek. Ook het vorig jaar afgeronde vertaalproject EUROTRA is op een mislukking uitgedraaid. Het systeem levert geen vertalingen van hoge kwaliteit en de onderzoekers richten zich nu op minder ambitieuze toepassingen als elektronische woordenboeken. Het Nederlandse automatiseringsbedrijf BSO/Origin dacht het belangrijkste struikelblok van machinaal vertalen - de meerduidigheid van de natuurlijke taal - te kunnen omzeilen door de teksten eerst in het Esperanto om te zetten, aangezien deze universele taal erg eenduidig is (alle zelfstandige naamwoorden eindigen bijvoorbeeld op een 'o'). Het prototype kon delen van een Engelstalige Fokker-handleiding voor vliegtuigonderhoud in het Frans vertalen, maar veel verder is BSO niet gekomen. Philips heeft zijn vertaalproject 'Rosetta' al in 1991 geschrapt.

Maar in Japan en de Verenigde Staten staat machinaal vertalen recentelijk weer volop in de aandacht. Het bedrijfsleven zit namelijk om vertaalcomputers te springen. Ondernemingen krijgen steeds vaker informatie onder ogen die in een andere taal dan het Engels is gesteld. Er bestaat vooral veel vraag naar Japanse octrooiliteratuur. Al die informatie kan onmogelijk door mensen vertaald worden. Er zijn slechts tweehonderd professionele vertalers voor Japans-Engels in de Verenigde Staten. En de Japanners willen niets liever dan programma's die technisch Engels in begrijpelijk Japans kunnen vertalen. De Japanse overheid heeft al 200 miljoen dollar gestoken in de ontwikkeling van vertaalcomputers.

Handleidingen

Multinationals die omvangrijke handleidingen in het Frans of het Duits moeten vertalen geven nu al erg veel geld uit aan programma's die eigenlijk alleen ruwe vertalingen kunnen leveren. Het Duitse bedrijf Siemens heeft zo'n programma ontwikkeld, METAL (Machine Evaluation and Translation of Natural Language). Het kan offertes, technische beschrijvingen en gebruiksaanwijzingen die bijvoorbeeld in het Nederlands zijn gesteld volautomatisch in de Franse taal omzetten. De Belgische overheid maakt daar dankbaar gebruik van. Een nadeel is dat die vertalingen niet af zijn en eerst flink moeten worden opgepoetst (post-editing).

Toch valt een volledige vertaling duurder uit. Een professionele vertaler doet over het vertalen van duizend pagina's tekst minstens vijftien weken. Dat kost al gauw 96.000 gulden. Een computerprogramma kan deze klus in een half uur klaren. Daarvoor wordt ongeveer 28.000 gulden in rekening gebracht. Het bewerken komt op 30.000 gulden. In totaal zijn bedrijven dus niet meer dan 58.000 gulden kwijt. Softwarebedrijven hebben zich dan ook massaal op de ontwikkeling van vertaalprogramma's gestort. Volgens het marktonderzoekbureau Frost & Sullivan ligt er een enorme markt in het verschiet. Alleen al in de traditionele vertalersmarkt wordt jaarlijks 10 tot 20 miljard dollar omgezet. Het aandeel van machinaal vertalen is daarin nog zeer gering: minder dan 1 procent.

Machinaal vertalen kan op allerlei manieren. Het rechtstreeks vertalen van woorden komt nauwelijks meer voor. Je komt het eigenlijk alleen nog tegen in vertaalcomputertjes die je voor een vakantie in de tax free-winkel kunt kopen. Nee, de meeste vertalingen maken gebruik van een tussenstap. Eerst worden de zinnen ontleed om de werkwoorden en de werkwoordsvorm vast te kunnen stellen. Vervolgens wordt voor elk woord het buitenlandse equivalent (en de bijbehorende vorm) opgezocht. Tenslotte worden de vertaalde woorden in de juiste volgorde gezet. Het voordeel van deze zogeheten syntactische aanpak is dat de 'tussentaal' voor meerdere talen gebruikt kan worden. Maar omdat het programma de betekenis van de woorden niet kent, wordt de tekst niet altijd even goed begrepen of vertaald.

Sommigen geven dan ook de voorkeur aan een semantische aanpak. Hier is de tussentaal of 'interlingua' een gegevensbestand met kennis over de woorden die vertaald moeten worden. De interlingua kan een representatie van de betekenis van de brontekst zijn of een taal-onafhankelijke beschrijving ervan. Ook hier wordt getracht om de brontekst te analyseren in begrippen die gekoppeld kunnen worden aan corresponderende begrippen van de andere taal. Om het overzichtelijk te houden, beperkt het gegevensbestand zich vaak tot één vakgebied. Technische artikelen zijn voor computers beter te begrijpen dan proza of juridische taal.

Kansberekening

Een aanpak die sterk in opkomst is gaat uit van kansberekening. 'IBM heeft zo'n methode ontwikkeld voor de vertaling van Canadese parlementsprocedures,' zegt Robert E. Frederking van de Carnegie Mellon Universiteit. 'Het idee is heel simpel: de context waarin een woord wordt gebruikt zegt meestal iets over de betekenis ervan. Dus als het woord 'advocaat' wordt gebruikt in combinatie met woorden als 'verjaardagsfeest' of 'receptie' dan weet je dat een eigele drank en niet een rechtsgeleerde wordt bedoeld. Staat de betekenis van het woord vast dan wordt het equivalent opgezocht. Tegen de verwachting in blijkt deze methode heel goed te werken, beter dan interlingua. Alleen onze verwachting is dat de kwaliteit niet veel beter wordt. De aanpak vergt bovendien enorm veel rekentijd. Computers staan soms weken te ploeteren. Maar aanhangers van de methode zeggen dat computers steeds sneller worden en machinaal vertalen straks geen enkel probleem meer is.'

De huidige commerciële vertaalprogramma's als IBM's Translation Manager voor OS/2, SYSTRAN (al jaren in gebruik bij het Amerikaanse leger) en het onder vertaalbureaus populaire LOGOS maken allemaal gebruik van een tussentaal. IBM heeft zijn programma nog uitgebreid met fuzzy logic-algoritmen om bepaalde zinscombinaties snel te kunnen vinden. Tot voor kort draaiden deze systemen vrijwel uitsluitend op grote computers (minicomputers), maar er komen steeds meer PC-versies op de markt die, afhankelijk van de gebruikte microprocessor, zo'n 300 woorden per minuut kunnen vertalen. Dat is niet voldoende voor een multinational als Caterpillar, die 100 miljoen woorden per jaar moet vertalen.

Een van de projecten waaraan de Carnegie Mellon Universiteit werkt heet PANGLOSS. Met PANGLOSS kan de kopij van buitenlandse persbureaus straks direct in het Engels worden vertaald. Eerst uit het Spaans, later ook uit het Japans. 'Het is ongeveer het moeilijkste wat er is,' zegt Robert E. Frederking. 'Er zijn immers geen beperkingen. Buitenlands nieuws kan in principe overal over gaan. Ook zal het programma zich niet door spelfouten of grammaticale onjuistheden van de wijs mogen laten brengen.' Niet alleen kranten hebben belangstelling voor het project, ook beleggers die op zoek zijn naar informatie over bijvoorbeeld overnames. Nu nog stelt het programma de gebruiker vragen als het de tekst niet begrijpt (interactief vertalen); straks is het systeem volledig op zichzelf aangewezen.

Janus

Even ambitieus is het vertaalprogramma Janus. Het systeem zet gesproken woord eerst om in geschreven tekst. Daarna wordt de tekst vertaald en opnieuw in (kunstmatige) spraak omgezet. Spraakherkenning- en synthese zijn de laatste jaren sterk verbeterd. Woorden kunnen worden herkend aan de klanksterkte, de frequentiesamenstelling van de duur van de klankeenheden of fonemen.

Janus is in eerste instantie ontwikkeld als een automatisch registratiesysteem voor beurzen en congressen. Het heeft nog een zeer geringe woordenschat: 500 woorden. Voor commerciële toepassingen is minstens het dubbele aantal woorden nodig en om 'op niveau' een conversatie met de computer te voeren zou de machine op zijn minst 10.000 woorden moeten kennen. Ook is Janus nog erg traag (het heeft voor herkenning en vertaling drie seconden nodig) en verstaat het voorlopig alleen Algemeen Beschaafd Engels. Om zijn gesprekspartners beter te kunnen begrijpen, wordt de hardware uitgebreid met camera's voor het herkennen van gebaren en gezichtsuitdrukkingen. Janus lijkt daarmee een voorloper te worden van de intelligente computer HAL die in de science fiction-film '2001: A Space Odyssey' vriendelijke gesprekken voert met de bemanningsleden van een ruimtevaartuig en altijd voor een spelletje schaak is te porren (dat HAL vuile taal begint uit te slaan en 'Daisy, Daisy' zingend ten onder gaat, doet niet ter zake).

Een intelligent boordhulpje zal Janus vooralsnog niet worden. Het samen met de Universiteit van Karlsruhe, Siemens en het Japanse ATR-laboratorium ontwikkelde programma leent zich volgens projectleider Alex Waibel eerder voor draagbare vertaalcomputers en allerlei diensten van telecommunicatiebedrijven.

    • Jan Libbenga