Hoe zou een pratende Mona Lisa eruit zien? Of je pratende overgrootmoeder waarvan je alleen maar een portretfoto hebt? Dankzij een nieuwe stukje kunstmatige intelligentie (AI) kunnen we dat voor het eerst op een realistische manier zien.
Russische onderzoekers van het Samsung AI Center en het Skolkovo Institute of Science and Technology in Moskou zijn er in geslaagd om, uitgaande van slechts een enkele portretfoto of een enkel geschilderd portret, een realistisch pratend hoofd te maken. Geluid zit er trouwens niet bij, we zien alleen het beeld van pratende hoofden met realistische mimiek. Zo creëerden ze onder andere video’s van een pratende Mona Lisa, Marilyn Monroe, Salvador Dali en Albert Einstein uitgaande van slechts één enkele afbeelding. De onderzoekers publiceerden hun resultaten op 20 mei als wetenschappelijke vooruitgave op de website ArXiv.org.
Hoewel het ArXiv-artikel nog niet officieel wetenschappelijk beoordeeld is, vindt hoogleraar computer vision Theo Gevers van de Universiteit van Amsterdam het er betrouwbaar uitzien. „Ik ken het lab en ik wist dat Samsung er hard aan werkte. De afgelopen tijd zagen we in ons onderzoeksveld al dat er steeds minder voorbeelden nodig zijn om van te leren. Dus dat het mogelijk is om ook van één enkele afbeelding een realistische video te maken, lag in de lijn der verwachting. Het is mooi dat dat is gelukt.”
De moeilijkheid met het maken van een realistische deep fake-video, een video die echt lijkt, maar nep is, zit in het feit dat het menselijk brein zo gevoelig is voor gezichten dat het de kleinste onnatuurlijkheden in de beweging van mond, haar of kleding al opmerkt. Toch was het maken van dit soort deep fake-video’s al langer mogelijk. Ook Gevers werkt er aan (net als aan het ontmaskeren van deep fake). Tot nu toe had een AI-systeem echter veel voorbeelden nodig om van te leren.
De Russische onderzoekers trainden hun systeem, dat gebaseerd is op diepe neurale netwerken, met voorbeelden van een heleboel video’s van pratende gezichten. Na deze training gebruikt het systeem de positie van cruciale punten en afstanden in een nieuw gezicht, met name de positie van ogen, neus en mond.
Aanvaardbare illusie
Ze testten het systeem voor drie soorten beeldinvoer. Allereerst wanneer er zowel losse portretfoto’s als bewegend beeld van hetzelfde pratende hoofd beschikbaar zijn. Dat werkt het beste. Ten tweede ook wanneer er alleen losse foto’s zijn. Hoe meer foto’s om van te leren, hoe realistischer de deep fake-video eruit ziet. 32 trainingsbeelden blijken genoeg voor een video die mensen als realistisch ervaren. En tenslotte wanneer er slechts een enkele afbeelding beschikbaar is. Zo creëerden ze onder andere de pratende Mona Lisa. Die is niet perfect, maar voldoende voor een aanvaardbare illusie.
De pratende gezichten die met deze AI-techniek gemaakt worden, kunnen bijvoorbeeld toegepast worden als avatars in de game-industry, in musea, voor het op afstand bijwonen van vergaderingen of conferenties en in de speciale-effecten-industrie. De andere kant van dezelfde medaille is dat deep fake-video’s natuurlijk ook door kwaadwillenden misbruikt kunnen worden. Dat leidt dan weer tot een kat-en-muisspel tussen makers van deep-fake video’s en de ontmaskeraars ervan.
NRC onderzocht hoe makkelijk het is om een nepvideo te maken: