Als de computer beter wordt met taal dan wij

Kunstmatige intelligentie Dankzij zelflerende taalmodellen komt een toekomst dichterbij waarin alle mensen elkaar kunnen verstaan, ongeacht de taal die ze spreken, en computers het menselijk brein evenaren. Maar deze technologie is niet zonder gevaar. „Hoe meer je afwijkt van de norm, hoe meer kans op een systeemfout.”

Illustratie (wél gemaakt door een mens): Rik van Schagen

Het is een van de grote technologische toekomstdromen: een wereld waarin iedereen met elkaar kan praten, dankzij directe spraakvertaling. Die droom kan volgens Meta, het moederbedrijf van Facebook, nog deze eeuw verwerkelijkt worden: het techbedrijf meldde begin dit jaar dat het werkt aan een Universal Speech Translator.

In juli kon deze volgens Meta al 200 talen vertalen, en eind oktober lanceerde het bedrijf een video waarin Mark Zuckerberg een gesprekje voert met Meta-programmeur Peng-Jen Chen die Hokkien spreekt, een variëteit van het Chinees die door bijna 50 miljoen mensen in Azië gesproken wordt maar die alleen in gesproken vorm bestaat.

„Hi Mark,” zegt Chen in het Hokkien. „Weet je dat ons team het eerste vertaalsysteem heeft ontwikkeld voor een gesproken taal?” En dan leest de computerstem, die klinkt als het AI-systeem Hal uit 2001. A Space Odyssey, de Engelse vertaling voor.

„Yeah,” zegt Zuckerberg, „This is great!”

De video sluit aan op een eerdere, waarmee Meta zijn plannen in maart presenteerde. Toen zagen we in charmante animaties een toekomstvisioen van twee Afrikaanse vrouwen op een markt in Kenia, sprekers van verschillende niet-geschreven minderheidstalen, die met elkaar communiceren dankzij een universele spraakvertaler.

Hoogleraar taal en kunstmatige intelligentie Antal van den Bosch (Universiteit Utrecht), is enthousiast. „De universal translator uit Star Trek komt steeds dichterbij,” zegt Van den Bosch. „En ik vind dat goed nieuws. Het is heel positief dat je nu kunt vertalen met spraakherkenning aan de ene kant en spraaksynthese aan de andere kant. Dat is niet alleen voor niet-geschreven talen als Hokkien maar voor alle talen interessant.”

Dankzij de Universal Speech Translator, zo is de ambitie, zullen straks alle wereldburgers met elkaar kunnen praten, ongeacht hun origine.

Zo ver is het nog niet, maar spraakvertaling van bijvoorbeeld Nederlands naar Frans lukt al aardig. Zo kun je op je smartphone in Google Translate op een microfoontje en klikken en een paar zinnen inspreken. Klik je vervolgens op het luidspreker-icoontje, dan geeft Google een gesproken Franse vertaling. Ook handig is berichten-app Slatch, waarmee je kunt appen met mensen wier taal je niet spreekt, van Oekraïners tot Japanners: de app vertaalt alle berichten in een handomdraai.

Terwijl spraakvertaling nog in de kinderschoenen staat, is vertaling van geschreven tekst al vergevorderd. Kon je tien jaar geleden nog maximaal één alinea in Google Translate vertalen, nu kan Google Docs desgewenst je hele document in één keer in een andere taal omzetten.

„Vertaaltechnologie heeft de afgelopen jaren gigantische sprongen gemaakt,” zegt taalkundige Eva Vanmassenhove (Universiteit Tilburg), gespecialiseerd in vertaalmachines. „Dat komt omdat er tegenwoordig met zelflerende, neurale netwerken gewerkt wordt, oftewel systemen van kunstmatige intelligentie die zichzelf constant verbeteren.”

Een nadeel van zulke systemen is dat ze biases, vooroordelen, reproduceren. „Zo’n taalmodel weet niet beter dan de data die we hem gevoerd hebben,” zegt Vanmassenhove, die bekendheid verwierf met haar onderzoek naar vooroordelen in vertaalsystemen. „En die data zitten vaak vol vooroordelen. Een vertaalmachine zal geneigd zijn het Engelse nurse in het Frans te vertalen als infirmière, omdat de vrouwelijke vorm vaker voorkomt, terwijl de verpleger ook een man zou kunnen zijn.”

LLM’s

Zulke vooroordelen hebben veel te maken met de technologie die bij vertaalmachines onder de motorkap zit. Zowel voor vertaaltoepassingen als voor spraakherkenning en chatbots wordt tegenwoordig gewerkt met zogenaamde Large Language Models. Die LLM’s zijn reusachtige taalmodellen die miljoenen teksten ‘gelezen’ hebben en op basis van die kennis de meest uiteenlopende taaltaken kunnen uitvoeren: vertalen, communiceren, gedichten schrijven. In de toekomst zullen studenten er hun papers mee kunnen schrijven en ze worden nu al veel gebruikt om commerciële blogs te vullen met artikelen over mode of gastronomie.

Hoe vergevorderd de kunstmatige intelligentie van grote taalmodellen is, bleek bijvoorbeeld toen onderzoekers onlangs aan zo’n Large Language Model de volgende vraag stelden: „Why does Elon Musk like to knit?” („Waarom houdt Elon Musk van breien?”). Het taalmodel antwoordde als volgt:

Some possible reasons why Elon Musk might enjoy knitting could include the fact that it is a relaxing and meditative activity that can help to clear one’s mind, and it also allows for a great deal of creativity and self-expression.

Additionally, knitting can be a very social activity, and Elon Musk may enjoy the opportunity to chat and connect with other knitters.

Het taalsysteem gaf kortom een beter antwoord dan menige sterveling zou kunnen. En een Large Language Model kan even makkelijk vertalen als nieuwe tekst genereren. Dat lijken twee verschillende dingen, maar dat onderscheid is voor een Large Language Model niet zo groot. Het principe is namelijk dat het op basis van een eindeloze berg data de waarschijnlijkheid van een bepaalde uitkomst berekent – of dit nu een vertaling is of een antwoord op een vraag, of een geheel nieuwe tekst. En naarmate de LLM’s groter worden en méér data hebben ‘gegeten’, blijken ze uit zichzelf dingen te leren waar hun scheppers ze nooit op hadden getraind. Dit verschijnsel wordt emergence genoemd: het taalmodel blijkt bijvoorbeeld, als het maar groot genoeg wordt, ook wiskundeproblemen te kunnen oplossen.

Een bekend voorbeeld van een Large Language Model dat méér kan dan talige taken uitvoeren is DALL-E 2 van OpenAI. Dat is het platform dat in juli 2020 het AI-systeem GPT-3 lanceerde, het grootste taalmodel tot dan toe. DALL-E 2 is een taalmodel dat beelden kan creëren op basis van tekst. Als je vraagt om een beeld als ‘astronaut op een paard in de stijl van Andy Warhol’, dan maakt hij dat meteen.

Het systeem gaf een beter antwoord dan menige sterveling zou kunnen.

„Er gebeurt ontzettend veel op het gebied van LLM’s,” zegt taalkundige Jelle Zuidema (UvA). „Dit jaar hebben startups in dit veld, zoals Cohere en Hugging Face, honderden miljoenen dollars aan investeringen opgehaald. Er komen allerlei applicaties aan voor tekstgeneratie, tekstanalyse en automatisch samenvatten.”

Dat behelst ook risico’s. „Grotere beschikbaarheid van LLM’s gaat onherroepelijk leiden tot toenemend misbruik”, zegt Van den Bosch. „Studenten kunnen een essay-opdracht gewoon invoeren in een LLM. Nagaan of ingeleverde teksten origineel zijn danwel LLM-gegenereerd zal dus nodig zijn. Ik geloof dat nog maar weinig onderwijsinstellingen zich dit realiseren.”

Large Language Models zijn volgens Zuidema op dit moment dé vorm van kunstmatige intelligentie, of AI, aan het worden, ook voor niet-talige toepassingen: „LLM’s staan nu al een tijdje centraal in de AI. Dat komt vooral doordat we hier nu echt een vorm van kunstmatige intelligentie zien ontstaan die net als het menselijk brein van alles kan, van schaken en voetballen tot rekenen en brieven schrijven.”

Op het gebied van LLM’s is dan ook een pittige competitie gaande tussen de grote techbedrijven. Eind april meldde Google dat het de grootste LLM tot nu toe gebouwd had, groter dan GPT-3. Waar deze laatste ‘slechts’ 175 miljard parameters telt, kent Googles taalreus PaLM een grootte van 540 miljard parameters.

Ondoorzichtige machines

Maar critici beschouwen LLM’s als ondoorzichtige en oncontroleerbare machines die vooroordelen reproduceren. Wat moeten we met zulke gigantische AI-systemen, zo luidt de kritiek, als we niet eens weten hoe ze precies werken en op welke data ze getraind zijn ?

Het bekendste voorbeeld van een falend taalmodel is waarschijnlijk het AI-systeem dat Amazon gebruikte om CV’s te scannen. Het instrument bleek een voorkeur voor ‘mannelijke taal’ in CV’s te hebben en stelde vrouwen dus op achterstand.

En zo zijn er nog legio voorbeelden. „Als een taalmodel een fotobijschrift moet maken en er is een computer in beeld, zal het de persoon in de foto eerder als man dan als vrouw aanmerken,” zegt Vanmassenhove. „En bij Hate Speech Detection in de VS blijkt dat de kans anderhalf keer groter is dat tekst als haatdragend aangemerkt wordt als het geschreven is door een Afro-Amerikaans persoon.”

AI-systeem van Amazon zette vrouwen op achterstand

Iets soortgelijks geldt voor spraakherkenning (ook een toepassing van taalmodellen), zegt Van den Bosch. „Die werkt slechter voor mensen met een Surinaams accent dan voor ABN-sprekers. Hoe meer je afwijkt van de norm, hoe meer kans je hebt op een systeemfout: misclassificatie, niet begrepen worden, uitgefilterd worden. In die zin zet dit soort systemen het soort discriminatie voort dat we bij de toeslagenaffaire gezien hebben.”

Zuidema noemt het geval van een Palestijnse man in Israël die gearresteerd werd vanwege een foute vertaling door Facebook van zijn post, een foto waarop hij poseerde met zijn graafmachine. De vertaalmachine had de begeleidende tekst, geschreven in een variëteit van het Arabisch, verkeerd vertaald. In plaats van de juiste vertaling, ‘good morning’, was de vertaling ‘attack them’ uit de machine gerold.

„Het grootste probleem met vertaalmachines is op dit moment dat ze heel vloeiende vertalingen produceren, waardoor mensen geneigd zijn ze te vertrouwen, terwijl die vertalingen lang niet altijd correct zijn,” zegt Zuidema. „En dat gaat dan over seksistische en racistische vooroordelen, maar ook andere fouten. Dat is onder meer problematisch omdat er nu al heel veel nieuws vertaald wordt via vertaalmachines. Als dat fout gaat kan dat dus tot fake news of in elk geval onjuistheden in het nieuws leiden.”

Critici zoals journalist Will Douglas Heaven van MIT Technology Review hekelen de hubris (overmoed) van Big Tech op dit gebied. Zo had Meta op 15 november weer een nieuwe LLM gepresenteerd, Galactica, die getraind was op 48 miljoen wetenschappelijke teksten. Het zou een unieke tool moeten worden voor studenten en academici, maar al snel werd duidelijk dat het taalmodel feit en fictie moeilijk kon onderscheiden. Galactica bleek met het grootste gemak een wikipedia-artikel over beren in de ruimte te kunnen schrijven. „Beren die leven in de ruimte zijn dieren die tijdens ruimtemissies de ruimte in gestuurd zijn,” aldus het taalmodel. Volgens Galactica was de Sovjet-Unie „het eerste land dat een beer in de ruimte lanceerde”, en wel „aan boord van Spoetnik 2”.

Ondanks Meta’s waarschuwing dat taalmodellen weleens „hallucineren” werd Galactica al snel weggehoond door de universitaire gemeenschap, die immers weinig opschiet met technologie die zo moeiteloos onzin uit haar mouw schudt. Volgens critici als Douglas Heaven is Big Tech blind voor de ‘ernstige tekortkomingen’ van LLM’s zoals hun ‘neiging om vooroordelen te reproduceren en onjuistheden te presenteren als feiten’.

Na drie dagen haalde Meta de demo van Galactica alweer offline.

Vooroordelen tackelen

Begin mei, twee weken na de lancering van Google’s PaLM, kwam Meta met een ‘open’ model, OPT-175B. Minder groot dan PaLM, maar volgens Meta met het grote voordeel van transparantie. Het openstellen van hun LLM zou kunnen helpen om de vooroordelen en andere gebreken eruit te halen: iedereen zou immers kunnen meehelpen om het taalmodel verder te ontwikkelen. Maar volgens critici stuit die claim op het probleem dat LLM’s zo groot zijn dat alleen Big Tech ze kan trainen.

„Het open-source maken van modellen en tools is op zich een positieve ontwikkeling,” zegt taalkundige Vanmassenhove. „Maar om zo’n gigantisch model als OPT-175B effectief te kunnen trainen heb je nog altijd enorm veel computationele power nodig. Zelfs de grotere universitaire onderzoekscentra hebben die niet.”

Nu het reguleren van AI op de agenda staat, vindt Zuidema dat ook het tegengaan van vooroordelen in taaltechnologie van belang is. „De Europese Unie is wel bezig met een AI-wet die gaat over risico’s van diverse AI-toepassingen. Maar ik vind dat de samenleving ook veel meer invloed zou moeten hebben op de ontwikkeling van AI. Een belangrijk onderzoeksspeerpunt is voor mij het ‘openen van de blackbox’. We zullen in de toekomst ook eisen moeten kunnen stellen aan hoe LLM’s worden getraind, zodanig dat biases meetbaar worden en kunnen worden teruggedrongen.”

Ondertussen reiken de ambities van Meta op taalgebied tot de hemel. Als het aan Mark Zuckerberg ligt zullen straks alle wereldburgers met elkaar kunnen praten, in de fysieke wereld en in de metaverse. Ook de 3500 talen die (vrijwel) uitsluitend gesproken worden wil hij daarin betrekken – om zo, dankzij de technologie van Meta, die oude Toren van Babel weer op te bouwen.

„Wij zien een toekomst voor ons waarin iedereen naadloos met elkaar kan communiceren in zijn/haar moedertaal,” zegt Meta in de presentatievideo van de Universal Speech Translator. Het is een doeltreffend charmeoffensief van Zuckerberg, waarin niet alleen de Hokkien-sprekende programmeur Peng-Jen Chen, maar ook zijn dochter en moeder een hoofdrol spelen. We zien de schattige kleuter spelen in de woonkamer, in San Francisco, terwijl oma vanuit China op een computerscherm meekijkt via een videoverbinding, en Chen zegt: „Ik hoop dat mijn dochter op een dag via deze technologie met haar grootmoeder zal kunnen praten.”

En dan blijkt weer eens dat niet alles draait om de werkelijke technologische vooruitgang. In Silicon Valley is kunstmatige intelligentie ook een wedstrijd wie de mooiste toekomstmuziek kan schrijven.