Wat gebeurt er precies in de machinekamer van Google?

Google Research LAB Google verstaat wat we zeggen, herkent wat we schrijven en ziet wat we bekijken. Google-onderzoekers hielden open huis om uit te leggen hoe ze die data gebruiken voor hun algoritmes. Voor zover mogelijk dan: „Soms hebben we geen idee hoe machine learning precies werkt.”

Google-onderzoekster Tilke Judd, van het Assistant-team van Google, staat achter de muffin or chihuahua-machine. Foto Joao Nogueira

Je kon in 1993 nog rustig even een boterham gaan smeren als je foto’s liet analyseren door een computer. Met beperkte rekenkracht bouwde Emmanuel Mogenet toen al zijn eerste neurale netwerken – software die, zoals de zenuwen in het menselijke brein, op zoek gaat naar patronen in digitale bestanden.

Bijna 25 jaar later leidt de Fransman de Europese onderzoeksafdeling van Google in het Zwitserse Zürich. Hij heeft nu hele datacentra tot zijn beschikking om machines te trainen. Googles servers kauwen op teksten, boeken, video’s, foto’s en locatiedata van miljarden telefoons.

Er is rekenkracht genoeg en trainingsdata in overvloed: Googles zoekmachine indexeert het hele web, bij YouTube wordt meer dan 400 uur video per minuut geüpload en via Google Photos wordt elk plaatje op je telefoon geanalyseerd. Zo vind je beelden terug met een zoekterm (bijvoorbeeld ‘racefiets’ of ‘leeuw’) in plaats van te bladeren door je foto’s. „Het kostte ons drie jaar om die functie toe te voegen”, zegt Mogenet.

Dit artikel is onderdeel van een IT-special over kunstmatige intelligentie.

- Het AI-woordenboek: Wat is een algoritme, wat doet een neuraal netwerk?
- Reportage Google Research Lab: Wat gebeurt er in de machinekamer van Google?
- Machine learning expert Max Welling: ‘Europa moet zorgen voor morele balans’
- Doe de stoomcursus AI: Wordt data-expert in één dag
- Genoeg investeerders in AI, maar waar blijven de zinnige AI-toepassingen?
- Waarom deze special? Kunstmatige intelligentie is mensenwerk.

Soms gebeuren er met machine learning dingen die zelfs de onderzoekers niet verwachten. Vorig jaar bleek Google Translate een eigen ‘tussentaal’ te creëren: na getraind te zijn op vertaling van Japans naar Engels en van Koreaans naar Engels, kon het systeem rechtstreeks van Japans naar Koreaans vertalen, zonder daarvan voorbeelden gezien te hebben. Het computermodel bleek het digitale Esperanto uitgevonden te hebben – onuitspreekbaar voor mensen – waardoor Google Translate van taal naar taal kan ‘springen’. „We onderzoeken het nog, want eigenlijk hebben we geen flauw idee hoe dit stand kwam”, zegt Mogenet.

Algoritmes kunnen ook in negatieve zin verbazen. Zo lukt het Google (en ook Facebook) maar niet om nepnieuws uit te bannen met louter software.

Of neem deze nachtmerrie voor ouders én kinderen: afgelopen maand bleek dat het filter dat kindvriendelijke YouTube-video’s selecteert geen rekening hield met grove parodieën op tekenfilmfiguren: kinderen kregen filmpjes voorgeschoteld waarin Mickey en Minnie Mouse uit de kleren gaan of peuterheld Peppa Pig door de tandarts gemarteld wordt. Google, eigenaar van YouTube, verwijdert films nu handmatig en verbiedt het adverteren bij ‘child exploitation video’s’.

Een hond of een cakeje

Vorige maand hield Google open huis voor pers en EU-politici in zijn Zwitserse lab, waar zo’n 130 wetenschappers sleutelen aan machine learning, vertaalsoftware en algoritmes. Ze werken nauw samen met collega’s aan de Amerikaanse oost- en westkust. In totaal heeft Google 74.000 werknemers; het bedrijf behoort samen met Microsoft, Amazon en Intel tot de grootste investeerders in onderzoek en ontwikkeling op het gebied van kunstmatige intelligentie.

Hek, Miriam van ‘t

De demo’s in het Zürichse Google-kantoor benadrukken hoe succesvol algoritmes kunnen zijn, zoals de ‘muffin of chihuahua-test’: foto’s van honden en cakejes blijken op elkaar te lijken, en een computer ziet het verschil inmiddels sneller dan een mens (het spel kun je hier spelen.) Er staat ook een aanraakscherm dat al bij de eerste lijnen raadt welk voorwerp je tekent; een piano zet een paar tonen meteen om in een compositie. Het hele gezelschap gaat op excursie door de binnenstad van Zürich, met Google Lens als alleswetende gids.

Leuk, maar Googles werkelijke doel is de argwaan over kunstmatige intelligentie wegnemen, door onderzoekers te laten uitleggen hoe ze software ontwerpen op basis van data-analyse. Transparantie is belangrijk, weten ze bij Google, omdat volgend jaar nieuwe privacy-regels gelden in de EU. Burgers hebben het recht te weten hoe en waarom algoritmes over hen oordelen.

Kunstmatige, mensachtige intelligentie is nog heel ver weg, zegt psycholoog Gary Marcus. Lees ook het interview met hem: Robots lijken vaak best knap, tot je dieper gaat graven

Niet te veel kattenplaatjes

Algoritmes zijn vaak een gesloten boek, een black box. Hun totstandkoming is moeilijk te doorgronden: bij machine learning is het niet de mens die software codeert, maar de machine die met neurale netwerken, laag voor laag, naar patronen zoekt in data. „Zo ben je niet gelimiteerd tot de beperkingen van de menselijke kennis”, zegt Emmanuel Mogenet. „Jij kunt bijvoorbeeld niet precies zien hoe je loopt. Maar een computer kan het leren door voorbeelden te bekijken.”

Toon een computer genoeg afbeeldingen van een kat, en hij leert wat een kat tot een kat maakt. Mogenet: „Tussen de honderdduizend en de miljoen plaatjes, dat is voldoende. Want als je de computer te veel voorbeelden geeft, zal hij plaatjes onthouden – zoals een autistisch kind. Het systeem moet juist gedwongen worden te generaliseren. Dan begint hij het probleem in stukjes te hakken: wat is een staart? Wat is een oog? Er ontstaat een model waarmee de computer ook katten herkent die hij nooit gezien heeft.”

Sinds 2016 noemt Google zich een AI-first company: kunstmatige intelligentie komt op de eerste plaats. „Een must, geen keuze”, zegt Mogenet. Google moet machine learning gebruiken om de online data-explosie te verwerken en er de juiste advertenties bij te blijven vertonen.

Zelflerende software is nu een apart product. Het speelt een belangrijke rol in het voormalige Google X-project voor zelfrijdende auto’s (tegenwoordig Waymo). Het is ook de drijvende kracht achter de Google Assistant, software die je in dialoogvorm ‘bedient’ en die de gebruiker persoonlijk leert kennen. Ook Google Lens is gebouwd op kunstmatige intelligentie: deze app herkent gebouwen, boeken, kunstwerken en teksten zodra je de telefoon erop richt.

Lees ook: De grote datarace: een rijbewijs voor de robotauto

Daarnaast stelt Google machine learning-techniek beschikbaar via de Google Cloud, de software die bedrijven kunnen huren om hun eigen data in op te slaan en te analyseren. „Voorverpakte kunstmatige intelligentie”, noemt Mogenet dat. Google gaat zo de concurrentie aan met Microsoft en Amazon. Nu nog teert Google (omzet 90 miljard dollar) op advertentie-inkomsten, maar de verhuur van slimme software, getraind door Googles dataverzamelingen, kan een inkomstenbron van betekenis worden.

Google nam de afgelopen jaren veel bedrijven over die zich met zelflerende software bezighouden. Het Britse DeepMind is een van de bekendste namen: hun software was beter in het bordspel Go dan de Chinese kampioen. In afgeschermde omgevingen – bordspelen en computergames hebben minder mogelijke variaties dan de ‘analoge’ werkelijkheid – verslaat kunstmatige intelligentie vaak de mens.

Het niveau van een slang

De kunst is het om ook in complexere situaties goede inschattingen te doen. Al herkent de computer objecten, leest hij handschriften en kan hij ons verstaan, Mogenet vindt dat kunstmatige intelligentie nog in de kinderschoenen staat.

„Beelden herkennen, dat is niet een eigenschap waarmee we ons van de dieren onderscheiden. Ook een hond kan een kat herkennen.” Later zegt hij: „Eigenlijk zitten we nog op het niveau van een slang.”

Bestaande machine learning-systemen kunnen niet beredeneren zoals een mens dat kan, zegt Mogenet. „Wij kunnen ons met een paar stukjes van de puzzel al een logische volgorde van gebeurtenissen voorstellen omdat we weten wat mogelijk is en wat niet. Wij hebben een wereldsimulator tussen onze oren. Als ik het woord ‘koe’ zeg, stel jij je een koe voor en waarschijnlijk wat gras erbij. Als mensen met elkaar praten maken ze veel referenties naar dingen in de wereld. Wij gebruiken gedeelde kennis. Computers hebben geen idee waar het over gaat.”

Er is nog werk aan de winkel, zegt Googles onderzoeksdirecteur. „In de jaren negentig probeerden we kennissystemen te bouwen die konden plannen en redeneren als mensen. We begonnen met het oplossen van de moeilijkste problemen.” Die aanpak bleek duur en onsuccesvol en leidde er zelfs toe dat het onderzoek naar kunstmatige intelligentie op een lager pitje kwam te staan: de geldkraan werd dichtgedraaid. Inmiddels staat, dankzij de vorderingen met machine learning, die geldkraan wijd open – de toevoeging ‘AI’ is vaak genoeg om gretige investeerders te trekken.

Mogenet wil met zijn team de oude kennissystemen nieuw leven in blazen „maar er is nog niet over gepubliceerd”. Er staan meer verbeteringen op stapel. Zo werkt Google aan ‘federative learning’, waarbij de data niet meer verzameld wordt op één centrale plek – machine learning wordt verdeeld over een netwerk aan apparaten, bijvoorbeeld telefoons of auto’s. Dat systeem is actueler en biedt in theorie betere privacybescherming.

Foto Joao Nogueira

Wiskunde is niet neutraal

Dat is de techniek. De ethiek is een ander verhaal. Gebruikers moeten erop vertrouwen dat Google-ontwerpers de juiste data selecteren om software te trainen en de wiskundige modellen niet een te simplistisch beeld van de werkelijkheid geven of stereotypes bevestigen. Dat is een belangrijke voorwaarde nu kunstmatige intelligentie doordringt in het dagelijks leven – niet als zoekopdracht of YouTube-suggestie, maar concreet, als een bank die leningen weigert of een opleiding die studenten selecteert.

In haar boek Weapons of Math Destruction haalt de Amerikaanse schrijfster Cathy O’Neil voorbeelden aan van algoritmes die vooroordelen bevestigen en verschillen in geslacht, ras, inkomen en opleiding juist benadrukken. Tijdens een lezing in Utrecht zei O’Neil afgelopen week dat wiskunde ten onrechte als een bijna heilige, neutrale macht wordt beschouwd. „We moeten data weghalen bij de datawetenschappers. Het zijn mensen die beslissingen nemen. Ik ben jaloers dat jullie in Europa een wet hebben die je tegen foute algoritmes beschermt.”

Mogenet is, vanzelfsprekend, positiever: „Ik zie machine learning juist als een mogelijkheid om gelijkheid te brengen, omdat specialistische kennis beschikbaar wordt voor een grotere groep mensen.” Maar hij erkent: „Inzicht zonder verklaring is niet waardevol.” Met andere woorden, voor zinnige toepassing moet je begrijpen waarom de computer tot conclusies komt.

Google probeert met het PAIR initiatief – People in AI Research – uit te leggen hoe algoritmes werken. De Braziliaanse onderzoekster Fernanda Viégas laat met datavisualisaties zien hoe patronen gerangschikt worden. Ze geeft het voorbeeld van een bank die op basis van historische data moet bepalen welke mensen een lening krijgen en welke niet. „Wat is een eerlijke afweging? Kies je voor de maximale winst of wil je volkomen neutraal zijn? Je moet een drempel kiezen en ook een aantal incorrecte beslissingen accepteren.”

We moeten ons voorbereiden op een toekomst waarin computers veel dingen beter leren dan wijzelf. Lees ook: En toen ging de computer zelf leren

Een ander voorbeeld: Google-software die beledigende commentaren onder artikelen uit de The New York Times moest filteren schoot tekort. „Er zat niets anders op dan het algoritme opnieuw te trainen.” Dat soort filters zijn uitermate complex – zie de grove kinderfilms op YouTube. Wat in het ene land als een belediging geldt, kan elders als normaal worden beschouwd. Stereotypes verschillen per cultuur, waardoor een universele aanpak altijd tekortschiet.

Viégas laat een plaatje zien: zelfs de manier waarop mensen een stoel tekenen, verschilt per land: in Korea tekenen ze een stoel van boven, in Brazilië van de zijkant en in Duitsland van de voorzijde.

We willen dit goed doen, benadrukken de Google-onderzoekers. Robuuste, eerlijke modellen bouwen, blijven evalueren en verbeteren. Maar de selectie van trainingsdata blijft een heikel punt, erkent Viégas: „Zelfs met de beste bedoelingen kunnen we ons niet loskoppelen van onze vooroordelen.” Machine learning is, ook bij Google, mensenwerk.

    • Marc Hijink