De computer kletst maar wat

De Turing Test was bedoeld om antwoord te geven op de vraag of machines kunnen denken. Zestig jaar later heeft nog geen enkele computer de test doorstaan.

In 1950 stelde de Britse computerpionier Alan Turing een praktische test voor die een antwoord zou moeten geven op de vraag: “Kunnen machines denken?” Die test ging de Turing Test heten. In het kort: je mag via een toetsenbord en een beeldscherm waarop alle tekst verschijnt, converseren met een mens en een machine. Je weet echter niet wie wie is. Wanneer je niet in staat bent te onderscheiden wie de mens en wie de machine is, dan is het volgens Turing fair om te zeggen dat de machine kan denken.

Turing voorspelde dat computers nog vóór het jaar 2000 zouden slagen voor deze test. Maar zelfs nu, zestig jaar na zijn voorspelling, is er nog nooit een computer geslaagd. Nog steeds vallen machines snel door de mand.

Uitvinder Ray Kurzweil verkondigt dat computers rond 2030 wél zullen slagen voor de Turing Test, in essentie door de werking van het menselijke brein na te bouwen. Kurzweil wil zijn chatbot Ramona klaarstomen voor de Turing Test. Op zijn website kun je chatten met Ramona 4.0, die onder andere kan putten uit alle kennis van Wikipedia [zie kader voor een voorbeeld].

IN VERWARRING

Dan blijkt dat chatbots als Ramona er nog lang niet zijn. Ze gebruiken vooral trucjes, zoals geforceerd praten over wat ze wel weten, of het uit de weg gaan van de conversatie door zelf vragen te stellen. Zodra je het gesprek een beetje persoonlijk maakt, raken ze in verwarring. Ook hebben ze grote moeite met alledaagse, impliciete kennis. Elk kind weet dat wanneer je een glas water op de grond laat vallen het glas breekt en het water wegloopt. Dat heeft het geleerd door ervaring, uit de interactie tussen lichaam en omgeving. Niemand heeft dat expliciet verteld en het staat ook niet in een encyclopedie. Juist deze impliciete kennis is voor een computer uiterst moeilijk. Zonder zintuigen die de wereld waarnemen, kan een computer die kennis niet zelf opdoen en moet hij deze expliciet geprogrammeerd krijgen. Hoewel dat al drie decennia geprobeerd wordt in het project CYC, is het tot nu toe ondoenlijk gebleken. En er zijn geen aanwijzingen dat op dat terrein voldoende snel vooruitgang wordt geboekt – als het überhaupt al zou kunnen.

Maar als de Turing-Test-chatresultaten ondanks een enorme vooruitgang in hardware en software na zestig jaar nog zo teleurstellend zijn, wat moeten we dan anno 2010 nog met de Turing Test?

“De Turing Test is gedateerd”, vindt Frank van Harmelen, hoogleraar aan de Vrije Universiteit in Amsterdam en gespecialiseerd in kunstmatige intelligentie. “In 1950 waren de ideeën van wat computers konden nog heel naïef. Het was revolutionair dat Turing al durfde na te denken over computers die niet te onderscheiden zijn van mensen. Maar nu zijn we zestig jaar verder en begrijpen we veel beter wat computers wel en niet goed kunnen en wat intelligentie is.”

Juist omdat de Turing Test gericht is op het simuleren van menselijke intelligentie vindt Van Harmelen de test gedateerd. Hij vergelijkt het met vliegen. Iedereen vindt dat vogels vliegen. Maar iedereen vindt ook dat Boeing 747’s vliegen, terwijl ze dat op een heel andere manier doen. Toch zou geen 747 ooit slagen voor een Turing Test voor vliegen als die net zo gebaseerd was op het imiteren van vogels als de Turing Test gebaseerd is op het imiteren van mensen. Eeuwenlang probeerden mensen te vliegen door vogels na te doen. Dat leverde behalve tragikomische scènes niets op. De mens leerde pas vliegen toen hij ophield de natuur te imiteren, de wetten van de aerodynamica ging begrijpen en vliegtuigen met stijve vleugels ging bouwen.

ULTIEME DROOM “Aan de ene kant vind ik dat de Turing Test het wetenschappelijk onderzoek naar kunstmatige intelligentie in de weg staat”, zegt Van Harmelen. “We moeten niet meer uitsluitend mikken op het nabouwen van menselijke intelligentie. We moeten algemene theorieën maken over wat intelligentie is en op basis daarvan software bouwen. Machine-intelligentie hoeft helemaal geen menselijke intelligentie te zijn. Aan de andere kant zie ik een computer die slaagt voor de Turing Test wel nog als de ultieme droom van het vakgebied, zoals de ultieme droom van de natuurkunde een Theorie van Alles is. We moeten die droom niet loslaten, maar hij is niet richtinggevend voor het ontwikkelen van kunstmatige intelligentie.”

Meer en meer is gebleken dat machines andere vormen van intelligentie vertonen dan menselijke intelligentie. Zo berekent een schaakcomputer zijn zetten anders dan mensen dat doen. Mensen gebruiken patroonherkenning. Schaakcomputers zoeken enorm snel door een enorme hoeveelheid combinaties heen. Het een is niet per definitie beter dan het ander. De twee strategieën kunnen elkaar zelfs aanvullen, zoals bij de modernste schaakcomputers wordt geprobeerd.

De menselijke hardware heeft cognitieve beperkingen ingebouwd: zo kan ons brein maar zeven – plus of min twee – items in het kortetermijngeheugen opslaan. Van Harmelen: “Maar waarom zouden we zo’n zelfde beperking inbouwen in een computer alleen maar om menselijke intelligentie te simuleren? Veel dingen die moeilijk zijn voor mensen zijn heel goed op computers te realiseren, zoals schaken of het uitrekenen van ingewikkelde formules. Paradoxaal genoeg zijn de dingen die elke driejarige kleuter al kan juist heel erg moeilijk voor een computer: natuurlijke taal begrijpen of gezichten herkennen.”

Van Harmelens argumenten tegen de Turing Test worden door de meerderheid van de internationale collega’s gedeeld. In 2006 vierde de kunstmatige intelligentie haar vijftigjarig bestaan met een grote conferentie. Uit een enquête onder de aanwezige wetenschappers, onder wie de oprichters van het vakgebied, bleek dat 41 procent geloofde dat computers helemaal nooit de menselijke intelligentie zouden kunnen simuleren; nog eens 41 procent meende dat dat wel zou kunnen, maar dat het meer dan vijftig jaar zou duren. Mensen als Ray Kurzweil, die denken dat een computer binnen twee decennia slaagt voor de Turing Test, zijn een uitzondering.

ONBEHOLPEN

Een ander argument tegen de Turing Test komt uit de hedendaagse cognitiewetenschap: de menselijke cognitie ligt diep verankerd in het feit dat wij een lichaam hebben. Onze hersenen zijn geëvolueerd voor een effectieve interactie met de omgeving. Ze vragen zich voortdurend af hoe het lichaam in respons op de omgeving moet reageren. Waarnemen en handelen zijn daarbij essentieel. Dat kunnen hedendaagse computers in het geheel niet en zelfs de beste robots zijn er onbeholpen in. Ook de belangrijke non-verbale communicatie gebeurt via het lichaam.

In kringen van filosofen en logici heeft de Turing Test altijd een voorname status gehad. Johan van Benthem is hoogleraar logica en de toepassingen daarvan in de informatica en de cognitiewetenschappen. Hij is zowel verbonden aan de Universiteit van Amsterdam als aan de Stanford Universiteit (VS). Net als Van Harmelen vindt ook hij de Turing Test gedateerd. “Allereerst is de test gebaseerd op een achterhaald machinemodel: de Turingmachine. De Turingmachine is een computer met in- en uitvoer die alles in zijn eentje moet doen.”

SUPERCOMPUTERS

Het bedenken van die machine was Turings belangrijke fundamentele bijdrage aan de informatica. Alles wat op een mechanische manier te berekenen is, kan berekend worden met een Turingmachine. “Maar”, zegt Van Benthem, “na zestig jaar is de realiteit er niet meer een van een op zichzelf staande machine, maar van netwerken van aan elkaar gekoppelde computers of processoren. Denk aan het internet of aan supercomputers met duizenden processoren. En op softwareniveau ontstaan steeds meer gemeenschappen van software-agenten die hun eigen doelen nastreven en informatie uitwisselen.”

Van Benthem: “Voor zulke netwerken of gemeenschappen hebben we nog geen goed theoretisch model. Misschien moeten we zo’n model eerder baseren op het concept van een spel tussen meer dan twee spelers, zoiets als het spel Cluedo bijvoorbeeld, dan op het concept berekening. Het feit dat filosofen nog steeds over de Turing Test debatteren, laat vooral zien dat ze de ontwikkelingen in de informatica van de afgelopen vijftig jaar niet hebben gevolgd.”

Van Benthems tweede argument tegen de Turing Test is een veelgehoord tegenargument: het is een alles-of-niets-test. Ofwel een machine slaagt voor de Turing Test, of niet. De test meet niet hoeveel beter de machine in staat is een menselijke dialoog te simuleren, laat staan wat machine en mens samen beter zouden kunnen dan alleen. Van Benthem: “Eigenlijk vind ik het daarom een extreem oninteressante test. Veel interessanter is het verschijnsel dat machine-intelligentie in de afgelopen zestig jaar helemaal geen concurrent is geworden van menselijke intelligentie, maar dat menselijke intelligentie is uitgebreid met machine-intelligentie. De samenwerking tussen mens en machine heeft tot nieuwe gedragsvormen geleid, zoals het gebruik van internet en smartphones. Wat mij betreft is de interessante vraag welke uitbreidingen wel en niet werken; niet of we menselijke intelligentie kunnen simuleren.”

PRIJS

Op 23 oktober aanstaande vindt voor de twintigste keer de Loebner Prize plaats, de enige wedstrijd ter wereld waarin computerprogramma’s het opnemen in een Turing Test. Hoewel er nog nooit een voor de test is geslaagd, ontvangt het programma dat het dichtst in de buurt komt wel een prijs van tweeduizend dollar. Maar de dialogen van de afgelopen winnaars stellen teleur, vergelijkbaar met die van Ramona 4.0.

Wie de deelnemerslijst doorneemt, ziet dat ’s werelds beste laboratoria op het terrein van de kunstmatige intelligentie, zoals de Amerikaanse universiteiten MIT, Stanford en Carnegie Mellon, schitteren door afwezigheid. Het aantal deelnemers is sowieso beperkt tot een handvol. Een teken aan de wand? “Ja”, zegt Frank van Harmelen. “De Loebner Prize is Spielerei. Hij trekt elk jaar weer even de aandacht, maar speelt in het wetenschappelijke onderzoek naar kunstmatige intelligentie geen enkele rol.”

“Een computer laten slagen voor de Turing Test is gewoon nog te moeilijk”, zegt Johan Bos, hoogleraar computationele semantiek aan de Rijksuniversiteit Groningen. Bos bouwt zelf vraag-antwoordsystemen voor wetenschappelijk onderzoek. “We kunnen wel dialoogsystemen voor beperkte domeinen en taken maken, maar er komt veel meer bij kijken om een universeel dialoogsysteem met kennis van de wereld en een eigen mening te maken. Daarom is er weinig tot geen interesse van de academische wereld. Het is wetenschappelijk niet interessant om een dialoogsysteem vol met flauwe trucjes te bouwen.”

Wat heeft de Turing Test na zestig jaar dan opgeleverd? Toch vooral veel voer voor filosofen. Stapels artikelen die beargumenteren waarom de Turing Test wel of geen goede test voor machine-intelligentie is. Maar geen bijdrage aan het creëren van kunstmatige intelligentie. Geen beter begrip van intelligentie. Geen betere dialoogsystemen. Weg met de Turing Test dus. Op zoek naar interessantere vormen van kunstmatige intelligentie.