Binnen één dag speelt AlphaZero iedereen onder tafel

Kunstmatige intelligentie

AlphaZero leert zichzelf binnen een dag beter schaken, go en shogi spelen dan wereldkampioenen. Door

Volgens historicus Johan Huizinga komt de menselijke cultuur voort uit het spel. Dat is de essentie van zijn klassieke boek Homo ludens. Nu één enkel computerprogramma, AlphaZero, er voor het eerst in is geslaagd om zowel schaken, go als shogi (Japans schaken) op bovenmenselijk niveau te leren spelen, zonder enige andere voorkennis dan de basale spelregels, moeten we misschien ook spreken over de Compu ludens: de computer die zijn slimheid al spelend ontwikkelt.

Spellen als dammen, schaken en go zijn al decennialang een belangrijke drijvende kracht achter de ontwikkeling van kunstmatige intelligentie. Computerprogramma AlphaZero is ontwikkeld door het Londense bedrijf DeepMind (eigendom van Google), als opvolger van AlphaGoZero. Afgelopen oktober verpletterde AlphaGoZero zijn één jaar oudere voorganger AlphaGo zonder enige vorm van menselijke kennis over het go-spel te gebruiken. DeepMind heeft als ultieme droom om mensachtige intelligentie in een computer te ontwikkelen. Een belangrijke stap daarbij is om dezelfde software meerdere spellen te laten spelen. Tot nu toe konden computers slechts één spel goed leren spelen, terwijl een menselijk brein een heleboel spellen kan spelen. Maar met AlphaZero is het in december voor het eerst gelukt, en nog op bovenmenselijk niveau ook.

„Dit is een ongelofelijk grote stap”, vertelt hoogleraar data science Aske Plaat van het informatica-instituut LIACS van de Universiteit Leiden. „Dat een computer met alleen kennis van de regels beter go leert spelen dan de beste mens was al heel bijzonder, maar de meeste van mijn collega’s, en ook ikzelf, dachten dat diezelfde aanpak voor schaken niet zou lukken. Schaken is zo’n ander spel. Het is de eerste keer dat deep learning voor schaken zo goed werkt. De successen van AlphaZero houden iedereen in het vakgebied bezig. Op onze vakgroep hebben we hier de afgelopen weken veel over gesproken en we zitten nog vol vragen.”

Deep learning is de nieuwe naam voor wat decennia bekendstond als ‘neurale netwerken’. netwerken bootsen op een sterk vereenvoudigde manier na hoe het menselijk brein leert. Het idee is dat kunstmatige neuronen met elkaar verbonden worden en verdeeld over tientallen lagen. Elke laag neemt een ander deel van de patroonherkenning voor zijn rekening: de diepste lagen detecteren de meest basale eigenschappen, zoals randen in een beeld. De hoogste lagen herkennen complete voorwerpen. Deep Learning stelt computers dus in staat om nieuwe dingen te leren van grote hoeveelheden data, waarbij het niet uitmaakt of die data bestaat uit getallen, tekst, geluid of beeld.Sinds 1997 (Deep Blue versloeg wereldkampioen schaken Garri Kasparov) schaakt de computer beter dan de mens. Sinds vorig jaar speelt de computer ook beter go dan de wereldkampioen. Maar go is een ander spel dan schaken en de go-software zit heel anders in elkaar dan de software van de beste schaakcomputers.

Schaaksoftware is gebaseerd op redeneren: het volgen van regels met brute rekenkracht. De computer wint omdat hij verder vooruit kan rekenen dan een mens. Aan de basis van zowel de go-software als die van AlphaZero staat patroonherkenning, vergelijkbaar met de manier waarop mensen problemen oplossen. Daarnaast kan deze software ook nog over patronen redeneren. Plaat sprak in december op de conferentie NIPS 2017 in Californië met David Silver, de hoofdonderzoeker achter AlphaZero. Plaat: „Silver vertelde dat ze zelf ook niet precies weten waarom de software zo goed werkt. Ze gebruiken een neuraal netwerk van 48 lagen en die lagen zijn in essentie hetzelfde, of het programma nu schaakt, go of shogi speelt. Het heel vaak spelen tegen zichzelf blijkt beter te werken dan het leren van grootmeesters. Het is alsof je twee baby’s met elkaar laat spelen en ze op een geheel eigen manier iets superslims ontdekken.”

‘Het is alsof je twee baby’s met elkaar laat spelen en ze op een geheel eigen manier iets superslims ontdekken’ – Aske Plaat, hoogleraar data science

Ongelijke strijd

AlphaZero werd getraind op hardware bestaande uit vijfduizend processoren die Google speciaal heeft laten maken om te rekenen met zogeheten ‘diepe neurale netwerken’. TPU’s heten die processoren: tensor processing units. Binnen twee uur was AlphaZero beter dan de beste shogi-computer, binnen vier uur beter dan een van de beste schaakcomputers (Stockfish) en binnen acht uur beter dan de beste go-computer, een van zijn voorgangers: AlphaGo.

Het aantal uren zegt trouwens niet veel: als DeepMind maar één processor had gebruikt, dan had het leerproces een paar jaar geduurd. Kijk je naar het aantal gespeelde partijen dan is dat veel meer dan wat professionele menselijke spelers spelen. Plaat: „DeepMind kan het zich veroorloven om heel veel hardware in te zetten. Maar dan nog is het een zeer knap staaltje werk.”

De Amerikaanse topschaker Wesley So, momenteel de nummer zes van de wereld met een Elo-rating van 2792, zei tegen schaakwebsite Chess over de winst van AlphaZero op topschaakcomputer Stockfish: „Ik was geschokt. Dit is de volgende grote stap. Het verandert het schaken totaal. Wat zal de ranking zijn? Een Elo van 3700? 4000? Dat is echt absurd.” Andere professionele schakers wezen erop dat het een ongelijke strijd was, omdat de bedenktijd beperkt was tot 1 minuut per zet en Google een supercomputer had. Toch verbaasde AlphaZero met af en toe bizarre, maar uiteindelijk briljante stukoffers om een strategisch voordeel op de lange termijn te krijgen.

Het artikel dat DeepMind in december publiceerde, is nog niet peer reviewed, maar het bedrijf liet weten dat zo’n artikel wel in de pijplijn zit. Interessant is de vraag of het werk wel reproduceerbaar is. Niemand anders dan DeepMind kent immers de software (die is niet open source) en niemand anders dan DeepMind beschikt over de vijfduizend speciale processoren.

„In strikt wetenschappelijke zin kan dit werk op dit moment inderdaad moeilijk 1-op-1 gereproduceerd worden”, zegt Plaat. „Anderzijds zijn bedrijven als Facebook, Apple, Microsoft en IBM hard bezig met dezelfde soort deep learning software. Het zou mij niet verbazen als er binnen enkele maanden soortgelijke resultaten van andere bedrijven komen. Daarnaast hebben David Silver en zijn team een goede reputatie die boven alle twijfel is verheven. Dus we geloven het allemaal wel, al wachten we wel op meer details, en open source zou ook zeker helpen.”

Algemene intelligentie

Hoewel DeepMind hun algoritme presenteert als een ‘algemeen lerend algoritme’ zet Plaat daar wel vraagtekens bij. „Om voor drie spellen al het woord algemeen te gebruiken, gaat ver. Het zijn uiteindelijk maar drie soorten spellen, en de stap naar algemene intelligentie is nog groot. Maar ik snap het enthousiasme wel. Tien jaar geleden geloofden weinigen dat het zo snel zou gaan met artificial general intelligence, waarmee computers net zo’n diversiteit aan activiteiten kunnen leren als mensen. Maar na AlphaZero is er weer veel meer aandacht voor.”

Hoe indrukwekkend computers ook hebben leren schaken en go leren spelen, het gaat nog steeds om spellen waarvan de regels exact bekend zijn, waarin er maar één tegenstander is en waarin je ook precies kunt zien wat die tegenstander doet. Voor een volgende grote doorbraak richt DeepMind zich op een heel ander soort spel: de videogame StarCraft, waarvan wereldwijd zo’n elf miljoen kopieën zijn verkocht. StarCraft is een spel waaraan wel acht spelers tegelijk kunnen deelnemen en waarin je niet alle handelingen van de tegenstanders ziet. Het is zelfs een professionele e-sport.

Het bedrijf achter StarCraft, Blizzard, heeft een database van 65.000 gespeelde games beschikbaar gesteld aan DeepMind. Dat mag nu proberen om met patroonherkenning nog sterker te worden dan de beste menselijke gamers.

Martin Rooijackers is StarCraft-fan én computerprogrammeur. Als student kunstmatige intelligentie aan de Universiteit Maastricht won hij in 2014 als in 2016 het StarCraft AI Tournament met zijn bot (een computerprogramma dat geautomatiseerd taken verricht). „Mijn bot zit nog flink onder het niveau van de beste spelers. Behalve dat je de acties van je tegenstander niet precies kent, zit er ook toeval in het spel. Dat maakt StarCraft een complexer spel om te spelen dan schaken of go.” Waar het go-spel een totaal aantal mogelijke toestanden kent van een 1 gevolgd door 170 nullen, moet je daar bij StarCraft nog eens honderd nullen aan toevoegen.

Rooijackers gebruikte voor zijn bot de klassieke aanpak: het redeneren aan de hand van regels. Dat DeepMind StarCraft nu met patroonherkenning te lijf gaat vindt hij een interessante ontwikkeling: „Ik verwacht dat ze binnen twee jaar de beste menselijke spelers serieus partij kunnen bieden.” Maar ook hij relativeert net als Plaat de algemeenheid van het algoritme. „Zelfs StarCraft is nog veel minder complex dan de echte wereld. De manier waarop karakters in StarCraft hun paden plannen is bijvoorbeeld veel eenvoudiger dan de manier waarop robots dat in de echte wereld moeten doen. Toepassingen van AlphaZero-achtige algoritmen zie ik daarom eerder in de wereld van het automatisch handelen op de financiële markten dan in de fysieke wereld.”

Plaat denkt dat uitdagingen in de fysieke wereld, zoals zelfrijdende auto’s en zelfvliegende drones, zulke lucratieve business cases zijn dat de grote techbedrijven er alles aan zullen doen om AlphaZero-achtige algoritmen ook daar toe te passen. „DeepMind heeft ons de afgelopen jaren steeds verbaasd. Zij hebben zo’n groot en goed team van onderzoekers en beschikken over zoveel geld dat ik verwacht dat ze ook bij StarCraft en bij praktische toepassingen in de echte wereld grote stappen gaan maken.”