Computers kunnen voortaan zelf leren hoe ze de meest verstokte gamers moeten verslaan. Britse computerwetenschappers van het bedrijfje Google DeepMind presenteren vandaag in het wetenschappelijke tijdschrift Nature zo’n zelflerend algoritme. Hun programma leert alles zelf, door te proberen en te kijken. Net als een mens.
Bij Pong slaat de machine álle ballen terug. In het boksspel Boxing drijft hij zijn tegenstanders vakkundig in de hoek. En in Space Invaders knalt hij de aliens één voor één uit de lucht.
Een computer die is voorgeprogrammeerd om mensen in een spel te verslaan is al lang niet bijzonder meer. Maar een computer die spelletjes zélf leert spelen is dat wel. En het zelflerend algoritme van Google Deepmind (Google kocht hun bedrijf vorig jaar) is hier een voorbeeld van.
Het algoritme verschilt daarmee fundamenteel van eerdere computers die afzonderlijke spellen (bijna) perfect beheersen, zoals het schaakprogramma Deep Blue dat in 1997 grootmeester Gari Kasparov versloeg. Alleen Deep Blue hoefde nooit uit te vinden hoe hij moest schaken: alle schaakregels waren van tevoren ingeprogrammeerd. Deep Blue is daarom goed in schaken, maar kan geen mens-erger-je-niet spelen.
Het Britse algoritme begint elke keer bij nul. Het programma heeft louter toegang tot de pixels op het scherm en de behaalde score. Het moet in een lange serie van spelletjes zélf uitvinden welke acties tot een hogere score leiden. Nu naar links schuiven? Of toch schieten?
Programma vindt zelf uit wat de beste strategie is
In het begin rommelt het programma maar wat aan. De ervaringen worden opgeslagen, de verwachtingspatronen worden bijgewerkt, en dan probeert het programma het opnieuw. De methode is een huwelijk van twee belangrijke methoden in de kunstmatige intelligentie: een neuraal netwerk ontwikkelen en gecontroleerd leren.
De onderzoekers van DeepMind lieten hun computer los op 49 klassieke spelletjes die voor de Atari 2600 zijn uitgebracht, een spelletjescomputer die populair was in de jaren tachtig. Bij 22 van de 49 spelletjes presteerde de computer uiteindelijk beter dan een professionele gamer, iemand die voor zijn werk spellen test.
Het programma ontdekte soms zelf de efficiëntste strategie. Zoals bij het spelletje Breakout, waarbij de speler met een batje en een bal een muur van blokjes weg moet spelen.
Na 200 spelletjes liet het algoritme nog af en toe een bal door. Na 400 spelletjes had het de smaak al te pakken. Maar na 600 spelletjes gebeurde iets bijzonders: het algoritme maakte een tunnel door de blokjes om de bal áchter de muur te werken, zodat de bal daar heen en weer bleef kaatsen en blokken weg bleef spelen. De optimale strategie voor dit spelletje. DeepMind-oprichter Demis Hassabis:
“We waren geschokt toen we dat zagen.”
Ver vooruit plannen vindt het algoritme nog lastig
Sommige spellen wist het programma niet te kraken. Zoals Ms. Pac-Man en Montezuma’s Revenge, een spel waarbij de speler sleutels moet verzamelen en deuren moet openen, terwijl hij slangen, lava en rollende schedeltjes ontwijkt. De onderzoekers schrijven:
“Spellen waarbij de speler ver vooruit moet plannen vormen nog steeds een uitdaging.”
De bedenkers zien een toekomst voor zelflerende programma’s in de echte wereld zei onderzoeker David Silver op een persconferentie:
“Als dit algoritme leert om een auto in een racespel te besturen, zou het ook met een echte auto moeten lukken.”