Een gesprek kunnen afluisteren door te kijken naar een zak chips

Er ligt een chipszak. Of er staat een plant, er liggen oordopjes. Een camera registreert ze van een afstand. In dezelfde ruimte als de objecten speelt een nummer, of er praten mensen. Wetenschappers van MIT hebben het met een algoritme voor elkaar gekregen om aan de hand van gefilmde trillingen van de objecten het geluid te achterhalen.

Er ligt een chipszak. Of er staat een plant, er liggen oordopjes. Een camera registreert ze van een afstand. In dezelfde ruimte als de objecten speelt een nummer, of er praten mensen. Wetenschappers van het Massachussetts Institute of Technology (MIT) hebben het met een algoritme voor elkaar gekregen om aan de hand van gefilmde trillingen van de objecten het geluid te achterhalen.

Je kunt natuurlijk ook filmen met geluid erbij, maar hier gaat het om alleen de beelden. Abe Davis, een van de wetenschappers, legt op de site van MIT uit hoe het kan dat daaruit geluid achterhaald kan worden:

“Wanneer geluid een object raakt, zorgt dat ervoor dat het object gaat trillen. De beweging van die trilling zorgt voor een heel subtiel visueel signaal, meestal onzichtbaar voor het blote oog. Mensen realiseren zich niet dat die informatie er altijd al was.”

En zo lukte het de onderzoekers dus om duidelijk hoorbaar de muziek van het kinderversje Mary Had A Little Lamb te destilleren uit trillingen, net als een gesproken versie. Door slechts de trillingen van een oortelefoon te filmen, kon muziekherkenningsapp Shazam de audio die daaruit werd gehaald keurig (en snel) herkennen als Queen’s Under Pressure.

Hogesnelheidscamera’s

Voor een echt goed resultaat is de gemiddelde camera die je zelf thuis hebt liggen, of de smartphone in je zak in het algemeen niet goed genoeg. Het beste resultaat behaalden de wetenschappers met hogesnelheidscamera’s, camera’s die in ieder geval 2.000 tot 6.000 beelden per seconden kunnen vastleggen. Minder dan de professionele hogesnelheidscamera’s - die kunnen wel 100.000 beelden per seconden halen -, maar beduidend meer dan de camera van, zeg, de gemiddelde telefoon. Die halen maximaal zestig beelden per seconde.

Maar het lukte ook met zo’n simpele camera, zoals te zien is in de uitlegvideo. De reden dat het daarmee ook tot op zekere hoogte werkte, lag volgens de onderzoekers aan een eigenaardigheid in de sensoren van de meerderheid van de camera’s. De kwaliteit was uiteindelijk wel minder, maar goed genoeg om “het geslacht van een persoon in een kamer of het aantal sprekers” te identificeren, schrijft MIT.

Een nieuw soort beeldvorming

Wat moet je ermee, is de vraag die overblijft. MIT zelf schrijft op zijn site dat de “logische” toepassingen op het gebied van politie- en forensisch werk zijn. Maar Davis ziet vooral mogelijkheden in wat hij “een nieuw soort beeldvorming” noemt:

“We halen geluiden uit objecten, dat geeft ons veel informatie over het geluid dat er is rond een object. Maar het geeft ons ook veel informatie over het object zelf, want verschillende objecten reageren anders op geluid dan andere.”

    • Frank Huiskamp