Iedereen kan nu chatten in het Chinees

Illustratie Pepijn Barnard

Hola en una cerveza por favor, daarna houdt het wel op. Toch kun je met zo’n beperkte woordenschat een gesprek voeren in het Spaans. Nieuwe vertaalsoftware van Google en Microsoft laat je praten in een taal die niet de jouwe is.

Skype Translator

Skype Translator wordt al een tijdje door Microsoft getoond op congressen, steevast gevolgd door een ‘wow’ in het publiek. Er is een testversie voor Windows 8 en 10 waarop Microsoft nu enkele tienduizenden gebruikers toelaat. Sinds afgelopen week kan Skype Translator behalve Spaans en Engels ook Chinees en Italiaans vertalen.

We proberen Skype Translator uit met Microsoft-medewerker Ignacio Pérez Lozano uit Madrid. Die spreekt Spaans, maar gelukkig komen zijn woorden er binnen een of twee seconden in vloeiend Engels uit. Ze worden uitgesproken door een mannelijke computerstem, ‘Bob’ genaamd. Omgekeerd vertaalt Bob mijn Engels in het Spaans – je kunt ook kiezen voor ‘Jane’. De vertaling gaat niet foutloos, maar is begrijpelijk.

Het heeft iets magisch, dat een computer zoiets menselijks als taal kan transformeren in iets wat een ander wel begrijpt en jij niet. De conversatie verloopt soepel zolang we ons houden aan het protocol: een afgesloten koptelefoon en microfoon. Anders slaat de spraakherkenning op hol en gaat zijn eigen vertalingen opnieuw vertalen.

Nog wat spelregels: spreek in korte zinnen en praat niet door elkaar heen. Wacht tot de vertaalde tekst in beeld is verschenen in het scherm. Zodra je dat ritme te pakken hebt, voelt het natuurlijk aan. Alsof je een gast bent in een buitenlandse talkshow, luisterend naar de tolk die het gesprek in je oor vertaalt. Je gaat vanzelf minzaam glimlachen.

“Een chat kan over elk denkbaar onderwerp gaan, dus moet de database met mogelijke woorden en zinsconstructies heel groot zijn”, vertelt Olivier Fontana, een van de Microsoft-onderzoekers die aan Skype Translator werkt. Dat is moeilijker dan werken met spraakcommando’s. Denk aan een vraag als ‘wat voor weer wordt het?’, die je je telefoon stelt.

Spraakherkenning vindt plaats in computersystemen die kijken of een zin, woord of de context lijkt op een eerder vastgelegd voorbeeld. Als het woord niet voorkomt in de database, wordt het niet correct vertaald. Dankzij de groeiende rekenkracht van servers (de cloud fungeert als één grote supercomputer) wordt die datacollectie groter en gaat woordherkenning beter.

Microsoft ging op zoek naar gesprekken uit het echte leven, vertelt Fontana. Zijn team analyseerde duizenden uren aan opgenomen conversaties, op verschillende toon en toonhoogten en over verschillende onderwerpen.

Fontana:

“We gebruikten optische tekenherkenning om ondertitels te lezen van Chinese films, zodat we Chinese tv-uitzendingen konden analyseren. Liever talkshows dan nieuwsuitzendingen, want bijna niemand spreekt als een nieuwslezer.”

Ook filtert de software tussenwerpsels eruit als ‘eh’ en het Amerikaanse ‘like’.

In de meest recente Skype-versie kunnen gebruikers aangeven dat een vertaling slecht is. Vervolgens controleert een Microsoft-medewerker het geluidsbestand. Voor je een gesprek begint krijg je de waarschuwing dat er kan worden meegeluisterd. De bestanden zijn geanonimiseerd en worden als losse flarden van 1 tot 100 kilobyte naar de server gestuurd.

De kwaliteit van de vertalingen hangt sterk af van je uitspraak. Een zwaar Iers accent geeft meer fouten, ook in de Engelse versie. Namen gaan vaak mis.

“Als je Utrecht vertaalt naar het Engels, maakt Skype Translator er waarschijnlijk Hut Rich van.”

Google Translate

Microsofts concurrent Google presenteerde eerder dit jaar een nieuwe versie van Google Translate, dat vooral gebruikers buiten de VS heeft: 95 procent. Met deze app is een telefoon te gebruiken als tolk. Sinds vorig jaar gebruikt Google de hulp van consumenten om de vertalingen te verbeteren. Barak Turovsky, verantwoordelijk voor Google Translate:

“De meest gebruikte toepassingen zijn nu dating en vragen die met reizen te maken hebben. We willen verder komen dan de meest gebruikte termen, zoals I love you, What’s your name en How are you?.”

Google Translate heeft er een nieuwe functie bij: World Lens, die buitenlandse teksten meteen vertaalt zodra je de camera erop richt. Je mikt de telefoon op een verkeersbord of krantenkop en de vertaling verschijnt in je scherm. De technologie die nodig is om beelden te herkennen is sterk verwant aan die van spraakherkenning.

Vertaaltechnologie is nauwelijks veranderd in 15 jaar

Google en Microsoft verbeteren en verbreden technologie die vijftien jaar geleden al voorhanden was, vertelt Antal van den Bosch. Hij is hoogleraar taal- en spraaktechnologie aan de Radbouduniversiteit in Nijmegen. Van den Bosch verwijst naar VerbMobil, een Europees project uit 1995 dat in principe hetzelfde deed. Zakenlieden konden per telefoon (een gsm van Siemens) hun teksten laten vertalen door een computer die er een vertaling in het Duits, Japans of Engels uitstampte – dat kon wel een half minuutje duren.

De afgelopen jaren is vertaaltechnologie in kleine stapjes verbeterd, maar niet wezenlijk veranderd, zegt Van den Bosch. “Een vijfje is nu een zeven geworden.” Zelfs deep learning-systemen, die spraak- en beeldherkenning verder automatiseren, dragen volgens hem maar “een klein beetje bij” aan de verbetering van het resultaat.

Niks nieuws onder de zon dus? Nieuw is dat grote groepen consumenten gratis gebruik kunnen maken van vertaaltechnologie, erkent Van den Bosch.

“Computersystemen zijn een stuk sneller. Google en Microsoft, met hun enorme datacentra, zijn de enige bedrijven die het zich kunnen veroorloven om zulke systemen te bouwen.”

Kortom: als meer mensen vertaalsoftware gebruiken, wordt het resultaat beter.