Reportage

Een zombie kan leren om je aan te kijken

Games Met een speciaal pak kun je vastleggen hoe mensen bewegen. Dat helpt animatoren.

De verslaggever draagt het motion capture-pak. In het midden staat Zerrin Yumak.
De verslaggever draagt het motion capture-pak. In het midden staat Zerrin Yumak. Foto Simon Lenskens

Even kruipen. Hoe ziet dat eruit? Ik heb gerend, gesprongen en geschopt. De actiefiguur op het grote scherm aan de muur doet precies wat ik doe. Ik waan me een Power Ranger, uit de televisieserie uit mijn jeugd, met een helm en een pak dat een supergespierd lichaam suggereert. In een vrijwel lege ruimte van zo’n 50 m2 zijn veertien camera’s vanuit alle kanten op me gericht. Ik draag een stoffen pak over mijn kleding. De 53 markers die met klittenband op de belangrijkste gewrichten en delen van mijn lichaam zijn geplakt, fungeren als datapunten waaruit de Power Ranger is opgebouwd.

Ik ben in het nieuwe motion capture-lab in de kelder van de afdeling informatica van de Universiteit Utrecht. „De ruimte zelf is niet nieuw, de camera’s en de software wel”, vertelt Zerrin Yumak, universitair docent en onderzoeker op het gebied van non-verbale communicatie van virtuele karakters. „We kunnen straks van meerdere personen de bewegingen van het lichaam, de vingers en het gezicht tegelijkertijd vastleggen. Er zijn maar weinig labs waar dat kan.” In januari moet alles klaar zijn.

De vastgelegde bewegingen van de verslaggever in het motion capture-lab van de afdeling informatica van de Universiteit Utrecht.

Games zien er steeds gelikter uit, toch is de sociale interactie vaak nog gebrekkig. „Een tijdje terug speelde ik een VR-ruimtesimulatiespel. Ik probeerde oogcontact te maken met de astronaut terwijl we op de maan landden. Maar hij nam geen notie van me. Hij keek rond, maar zag me niet. Dat vind ik zonde”, zegt Yumak. „Games die dat wel doen, zijn veel meeslepender. In een ander VR-spel komen zombies echt op je af, ze maken oogcontact. Dat is pretty scary.” Behalve in computergames is geloofwaardige interactie ook voor de groeiende tak van serious games van belang, waarmee mensen bijvoorbeeld kunnen trainen voor sollicitaties of patiëntgesprekken.

De kleinste vormen van communicatie zijn al complexer om te animeren dan op het eerste gezicht lijkt. „We gebruiken ons hele lichaam. We gebaren, kijken naar elkaar, het hele postuur beweegt subtiel mee. En alles staat in relatie tot elkaar”, zegt Yumak.

Ze zoekt op haar YouTube-kanaal met onderzoekswerk naar een video van een student over gaze animation, een gamekarakter ergens naar laten kijken. In een ruimte vergelijkbaar met het lab hier zien we een persoon in klittenbandpak die naar het uiteinde van een stok kijkt die door de ruimte wordt bewogen. Achter, voor, onder, boven. „Je ogen gaan eerst, daarna je hoofd en dan de rest van je lichaam. Vanuit een zittende of liggende positie doe je dat weer anders”, zegt Yumak. Ik doe het na, ineens ben ik me bewust van een hele sequentie vanzelfsprekende bewegingen. „Deze student deed zijn onderzoek bij de Nederlandse gamemaker Guerrilla Games. De gamestudio programmeerde kijkbewegingen altijd met een simpel mathematisch model en veel handwerk, ze wilden dat geloofwaardiger animeren en automatiseren.”

Nuances in beweging

Met personen in klittenbandpakken wordt data verzameld. Er zijn veel datapunten: 53 markers – of meer als gezicht en vingers gedetailleerdere markers krijgen – vanuit alle camerastandpunten en met 120 frames per seconde aan videobeeld. Met die datapunten wordt een diep neuraal netwerk getraind. In het geval van gaze animation kunnen de animatoren een object toevoegen. De bewegingen die hun karakter maakt om daarnaar te kijken, worden door het neurale netwerk gegenereerd. „Voor dit kijkonderzoek was een half uur aan data nodig. Voor alle nuances in beweging bij een natuurlijke conversatie heb je soms wel 10 tot 15 uur aan data nodig”, zegt Yumak.

Geloofwaardige interactie drijft op kunstmatige intelligentie. „Op conferenties en in de belangrijkste publicaties over animation graphics en virtual reality gaat het de laatste jaren voornamelijk over deep learning”, zegt Yumak. Zelf heeft ze samen met studenten laten zien dat je op basis van alleen spraakgegevens handgebaren kunt animeren die passen bij de gemoedstoestand van een virtueel karakter. Ze lieten acteurs blije, verdrietige en neutrale scènes spelen. Stem en beweging zijn dusdanig met elkaar verbonden dat het neurale netwerk de bijbehorende handgebaren wist te produceren door alleen het invoeren van nieuw stemgeluid. Ook lipsynchronisatie en gezichtsuitdrukkingen hebben genoeg aan spraakdata om geloofwaardig te zijn.

Niet verwonderlijk is dat op congressen en op universiteiten veel aandacht is voor ethische kwesties. „Stel je voor dat je jezelf op een scherm ziet en je hoort je eigen stem allerlei dingen zeggen. Maar je bent het niet, en je hebt die dingen nooit gezegd”, zegt Yumak. Zulke zogenoemde deepfakes bestaan al. Onderzoekers en beleidsmakers werken in Europees verband aan richtlijnen over verantwoorde kunstmatige intelligentie. „Soms komen er studies uit die op het randje zijn, daar wordt dan over gediscussieerd. Maar dat er negatieve toepassingen mogelijk zijn, betekent niet dat het onderzoek moet stoppen.”

Mooie dingen maken

Er wordt veel geld verdiend in de game-industrie. Kan die zelf geen onderzoek doen? „De grote studio’s doen dat ook. En onderzoekers van Facebook, Microsoft en Google kom je ook tegen op congressen”, zegt Yumak. „Maar als onderzoeker wil je vernieuwend zijn, in de beste tijdschriften zo veel mogelijk publiceren. Dit onderzoek is ingewikkeld, het bevindt zich op het snijvlak van animatie en kunstmatige intelligentie, daar hebben gamemakers de tijd niet voor. Bij studio’s werken animatoren, hun werk is om mooie dingen te maken, niet om kennis te vergaren.”

Het onderzoek van Yumak en haar collega’s is op meer toepasbaar dan alleen games. „Covid-19 heeft de interesse in communicatie op afstand vergroot. Ineens borrelden allerlei ideeën op. Is 3D-Skype misschien mogelijk, waarbij je zelf ver weg zit maar een hologram bewegingen maakt die passen bij wat je zegt?” Ze is nu aan het verkennen wat voor onderzoek hiervoor nodig is.

Yumak is „very excited” om het motion capture lab volledig te kunnen gebruiken. „Je had tot nu toe verschillende algoritmes nodig om een karakter te animeren. Straks kunnen we handbewegingen tegelijk genereren met de bewegingen van de wenkbrauwen. Het vangen van die kleine nuances, daar verheug ik me op.” Ze laat een laatste video zien, waarin groepjes mensen op in een café staan te praten. „Dit onderzoek ging om rolwisselingen in een gesprek tussen drie of meer mensen. Je ziet, ze staan op de achtergrond. Met de nieuwe apparatuur kunnen we dit ook dichterbij geloofwaardig maken.”