Google’s kunstmatige intelligentie kan nu beter liplezen dan mens

Google trainde een neural netwerk met duizenden uren nieuws- en praatprogramma’s van de BBC. BBC

Kunstmatige intelligentie heeft de mens op een nieuw terrein verslagen: liplezen. Een nieuw programma van Google kan beter liplezen dan een professionele liplezer. In een lipleestest had een geoefende liplezer minder dan een kwart van de woorden goed, terwijl Googles programma iets meer dan de helft van de woorden correct van de lippen las.

Het lipleesprogramma is een neuraal netwerk, geïnspireerd op het menselijke brein. Ze bestaan uit neuronen die met elkaar communiceren. De input en output van al die neuronen worden op elkaar afgestemd door het netwerk met duizenden voorbeelden te trainen. Neurale netwerken zijn extreem goed in het herkennen van spraak, beelden en andere patronen, iets waar traditionele vormen van kunstmatige intelligentie van oudsher veel moeite mee hebben. In maart versloeg een neuraal netwerk van Google de beste menselijke speler van het Aziatische bordspel go.

Technisch natuurkundigen van Oxford University publiceerden over hun lipleesprogramma op preprintserver arXiv, samen met onderzoekers van Google DeepMind.

Queen’s English

Het lipleesnetwerk beheerst vooralsnog alleen the Queen’s English: het netwerk is getraind met duizenden uren nieuws- en praatprogramma’s van de BBC. De onderzoekers kozen voor praattelevisie omdat het aantal sprekers groot is en omdat zij in volzinnen spreken.

Het neurale netwerk bestaat uit verschillende lagen, die bijvoorbeeld verantwoordelijk zijn voor het verwerken van beeld en spraak. Het lipleesprogramma kan spraak en lipbewegingen combineren om te raden wat er werd gezegd. Dat leverde de beste resultaten op. De onderzoekers geven daar verschillende voorbeelden van. Op basis van louter audio dacht het netwerk dat een spreker zei: ‘Just getting everything else’. Op basis van lipbewegingen zou het om ‘Chineses and everything else’ gaan. Maar gecombineerd kwam het netwerk tot de juiste zin: ‘Justice and everything else’.

De onderzoekers denken dat een lipleesmachine kan helpen bij het verbeteren van dicteerfuncties in telefoons en het transcriberen van beelden zonder geluid.