Gezichtsherkenning brengt orde in foto-chaos

De gezichtsherkenning in beveiligingscamera’s lijkt op de manier waarop fotodiensten mensen groeperen. Hoe werkt dat?

Zelfscanners bij de paspoortcontrole op luchthaven Schiphol. Foto Jaco Klamer

Je fotoalbum hangt niet meer met plakband aan elkaar maar met machine learning. We maken zo veel foto’s dat zelf rangschikken onbegonnen werk is. Vandaar dat de fotodiensten van Google, Apple en Microsoft je foto’s analyseren en doorzoekbaar maken. De computer definieert of iets een kat, een auto of een palmenstrand is. Of een mens.

Gezichtsherkenning is complexer dan objecten herkennen, zegt Marco Wiering. Hij is universitair docent kunstmatige intelligentie aan de Rijksuniversiteit Groningen, gespecialiseerd in deep learning en gezichtsherkenning. „Objecten zijn rigide, statisch, maar gezichten veranderen. Je draagt een bril, ander haar of een plotselinge baard. Het gaat ook om expressie. Ook als de lichtval verandert of je een gek gezicht trekt moet de software je herkennen.”

Lees ook over de populaire videodeurbellen: De buurman kijkt altijd mee

Door neurale netwerken miljoenen plaatjes laagje voor laagje te laten analyseren, worden overeenkomsten gevonden in gezichtskenmerken. Google, kampioen kunstmatige intelligentie, trainde zijn algoritmes op dataverzamelingen van honderden miljoenen foto’s. De portretten zijn klein, vaak minder dan 200 bij 200 pixels, maar dat is genoeg om een wiskundig model te bouwen dat overeenkomsten vindt tussen afbeeldingen.

Algoritmes kijken naar overeenkomsten in gezichten; ze kunnen ook zoeken naar overeenkomsten met een schilderij of een dier.

Soms zien algoritmes overeenkomsten die niet gewenst zijn. Zo koppelde Google Photos in 2015 het label ‘gorilla’ aan de foto van een man met een donkere huidskleur. Een pijnlijke vergissing, die Google oploste door het label ‘gorilla’ en andere primaten te verwijderen uit de filters.

De oorzaak: als datasets meer foto’s bevatten van blanke gezichten zijn algoritmes beter in het herkennen van lichte huidskleuren dan donkere. Daar hebben mensen ook last van, zegt Wiering: „Ons brein wordt getriggerd door wat we zien. Vroeger had ik moeite Chinese gezichten van elkaar te onderscheiden. Nu ik meer Chinese mensen ken, houd ik hun gezichten beter uit elkaar.”

Met meer dan een half miljard gebruikers is Google Photos de populairste online fotodienst. De mogelijkheid om gezichten te groeperen is in Europa nog niet geactiveerd, maar kun je via een omweg wel aanzetten. Het resultaat is een groep ‘Mensen en huisdieren’ in Google Photos.

Leslie Ikemoto van het Google Photos-team legt uit, via een videointerview: „Het groeperen van gezichten is een manier om foto’s automatisch te organiseren, maar het is niet gekoppeld aan een identiteit. Je kunt er zelf een naam of trefwoord aan hangen, of een bijnaam.”

Niet elke overeenkomst is juist: zou het algoritme van Google Photos vermoeden dat mijn dochter de jonge variant van Bill Gates is? Computers hebben wel moeite om (zeker bij jonge kinderen) het geslacht juist in te schatten. Screenshot

Google gebruikt onder meer portretten van Flickr om zijn algoritmes te trainen. Je eigen foto’s worden daarvoor niet gebruikt, zegt Ikemoto. Als er geen data mee verzameld wordt, waarom steekt Google zo veel energie in de fotodienst? „We willen dat je bij Google blijft”, zegt Ikemoto. „Om van zoekmachine te wisselen hoef je alleen maar een andere webadres in te tikken, maar wie eenmaal gewend is aan automatisch organisatie kan moeilijk meer zonder.”

Het herkennen van gezichten zit ook in Google Clips (niet in Nederland te koop), een camera die volautomatisch foto’s en video’s maakt van de personen die je waarschijnlijk graag in beeld wil brengen (zoals een opgroeiend kind of een huisdier). De camera besluit zelf wie en wanneer hij fotografeert, op basis van de patronen in je dagelijks leven.

Rekenkracht

Creepy, zo’n zelfkiekende camera? Zeker. Daarom worden de Clips- beelden niet automatisch ge-upload naar de Google-servers en zit alle kunstmatige intelligentie op de camera zelf, niet in de cloud. Die aanpak lijkt op de methode die Apple gebruikt voor zijn Photos-app. Elk Apple-apparaat analyseert de foto’s zelfstandig op overeenkomstige gezichten, maar zonder informatie te delen met de cloud. Dat kost rekenkracht en is minder efficiënt dan een centraal systeem, maar het is wel privacy-bestendig, redeneert Apple.

Bij het clusteren van gezichten gaat het om overeenkomsten, niet om identificatie of iemands echte identiteit. Facebook koppelt gezichten wel aan echte namen. Het sociale netwerk vroeg onlangs zijn Europese gebruikers om gezichtsherkenning te activeren. De uitleg: het zou veiliger zijn bij het inloggen en mensen met slechte ogen helpen om uit te leggen wie er op een foto staat.

De computer kan niet alleen herkennen wie je bent, maar ook inschatten welke emotie je uitstraalt. Microsoft ontwikkelde, speciaal voor slechtzienden, software die je leeftijd en je emotie beschrijft: „een 45-jarige man, die er gelukkig uitziet”. Zeker als de computer hem net iets te jong inschat.