AI meet zich met wereldtop in online game

Artificiële intelligentie Computerprogramma AlphaStar bereikt een verbazingwekkend professioneel niveau in videogame StarCraft II.

Actiescène uit Starcraft II: AlphaStar (groen) bestrijdt eenheden van Zerg-spelers.
Actiescène uit Starcraft II: AlphaStar (groen) bestrijdt eenheden van Zerg-spelers. Screenshot DeepMind

Voor het eerst kan een computer zich meten met de allerbeste menselijke spelers in StarCraft II, een videogame die door tienduizenden op professioneel niveau wordt gespeeld en door miljoenen puur voor de lol. Computerprogramma AlphaStar, een schepping van het Londense AI-bedrijf DeepMind, presteert beter dan 99,8 procent van de spelers die een officiële StarCraft-ranking hebben in alle drie de verschillende volken van StarCraft II: Protoss, Terran en Zerg. Niet eerder bereikte kunstmatige intelligentie zo’n hoog niveau in een professionele e-sport. Weliswaar is AlphaStar dus wereldklasse, maar nog niet bovenmenselijk zoals computers in dammen, schaken en go.

Lees over e-sports op de Aziatische Spelen, vorig jaar in Indonesië: E-sporters veroveren de hele wereld

Onderzoekers van DeepMind (eigendom van Google) publiceerden hun onderzoeksresultaten in Nature van deze week. Ze werden geholpen door de professionele StarCraft-speler Dario Wünsch van het in Utrecht gevestigde Team Liquid. Begin dit jaar had een eerdere versie van AlphaStar al eens gewonnen van zowel Wünsch als van zijn collega Grzegorz ‘MaNa’ Komincz, een van de sterkste profs. Dat gebeurde echter alleen in een van de drie StarCraft-varianten: Protoss. De nieuwste versie van AlphaStar is veel krachtiger en daarnaast is de training van AlphaStar inmiddels volledig geautomatiseerd.

Zeer moeilijke uitdaging

„Het is verbazingwekkend wat DeepMind voor elkaar heeft gekregen met AlphaStar”, mailt Mike Preuss, universitair docent bij de informatica-afdeling LIACS van de Universiteit Leiden. Hij is gespecialiseerd in AI voor games en organiseerde van 2010 tot 2013 StarCraft-wedstrijden voor computers. „StarCraft staat bekend als een zeer moeilijke AI-uitdaging, waarbij computers jarenlang niet in de buurt kwamen van het niveau van professionele spelers.”

Julian Togelius, universitair hoofddocent informatica aan New York University en eindredacteur van een wetenschappelijk tijdschrift over game-onderzoek, mailt: „AlphaStar is niet beter dan de beste mensen maar wel dan het gros van de spelers en dat is al heel interessant in zo’n complex spel.”

Lees een interview met Julian Togelius over het project van Google: ‘AlphaZero kan maar één spel spelen’

StarCraft II kwam in 2010 uit en was de opvolger van StarCraft uit 1998. In het sciencefictionspel binden menselijke ruimtekolonisten in de 26ste eeuw de strijd aan met diverse tegenstanders in een afgelegen deel van de Melkweg. De game verschilt in veel opzichten van het bordspel go, waarin computerprogramma AlphaGo, ook gebouwd door DeepMind, in 2016 een van de beste menselijke spelers versloeg. Diens opvolger AlphaZero bleek nog veel krachtiger dan AlphaGo en leerde door alleen maar tegen zichzelf te spelen, zonder eerst van menselijke spelers te leren.

In tegenstelling tot go is StarCraft een realtimestrategiespel: spelers hebben geen beurten maar moeten voortdurend beslissingen nemen. Waar bij go elke speler volledige informatie heeft over het spel, zien StarCraft-gamers niet direct alles wat er in het spel gebeurt. Spellen duren meestal vijf tot twintig minuten, waarin elke speler enkele duizenden acties doet. In elke tijdstap van het spel kent StarCraft II 1.026 mogelijke keuzes, tegenover zo’n 35 bij een gemiddelde schaakzet en honderden bij go. StarCraft II komt daarom meer overeen de echte wereld dan schaken en go. Dat maakt het zo’n aantrekkelijke uitdaging voor kunstmatige intelligentie.

De verschillende AlphaStars helpen elkaar beter te maken

Alleen maar leren door miljoenen malen tegen zichzelf te spelen, zoals AlphaZero deed bij schaken en go, lukt bij StarCraft II niet. Daarom begint AlphaStar eerst te leren door menselijke spelers te imiteren. Gewapend met die bagage creëerden de onderzoekers vervolgens een team van AlphaStars die allemaal met een iets andere strategie leerden spelen. Dat leren gebeurt via beloning van goede acties en bestraffing van slechte acties (reinforcement-leren). De verschillende AlphaStars helpen elkaar beter te maken. Dat is volgens Preuss een wetenschappelijke doorbraak: „Multi-agent training is heel handig omdat het de diversiteit van spelers gebruikt. Dat vind ik echt een gamechanger. Het is bijzonder om te zien hoe ze verschillende manieren om te leren hebben gecombineerd.”

Kan deze wetenschappelijke doorbraak ook tot nieuwe toepassingen leiden? Julian Togelius denkt van wel: „StarCraft kun je zien als de organisatie van een logistiek netwerk. Om het spel goed te spelen moet je de juiste actie doen op de juiste plek en het juiste moment. Ik kan me voorstellen dat een AlphaStar-achtig algoritme heel handig is bij het verbeteren van logistieke processen in de echte wereld.”