Vaak zijn mensen toch te herleiden via hun anonieme belgegevens

Kunstmatige intelligentie Gegevens over iemands telefoongebruik zijn commercieel interessant. Ook als die anoniem lijken, onthullen ze veel.

Anonieme metadata mogen verhandeld worden zonder dat de mensen toestemming hoeven geven.
Anonieme metadata mogen verhandeld worden zonder dat de mensen toestemming hoeven geven. Beeld John Lund/Blend Images

Anoniem gemaakte telefoongegevens zijn niet zo anoniem. Aan de hand van hun interactiepatroon zijn individuen te herleiden, laten Europese onderzoekers deze week zien in Nature Communications. De huidige praktijk van anonimiseren voldoet hiermee niet langer aan de Europese privacywet, concluderen ze.

De inhoud van berichten en gesprekken is gebonden aan strikte privacywetgeving. Inzien mag niet, laat staan verspreiden of verkopen. Met metadata mag iets meer, en als ze geanonimiseerd zijn zelfs veel meer. Metadata zijn gegevens óver berichten, gesprekken en appgebruik: hoe laat een bericht verstuurd of een app geopend werd, waar dat gebeurde, met welk ander apparaat er contact was en hoe lang. Zulke gegevens vertellen ook heel veel over ons doen en laten. Locatiegegevens onthullen bijvoorbeeld waar je woont en werkt. Algoritmes kunnen op basis van metadata van alles voorspellen, wie iemands partner is of wat iemands bestedingspatroon is bijvoorbeeld.

Als de metadata zijn ontdaan van herleidbare informatie, mogen ze verhandeld worden zonder dat de mensen over wie het gaat hier toestemming voor hoeven geven. Maar ook geanonimiseerde metadata zijn soms nog te herleiden tot personen. Een groep informatici uit het Verenigd Koninkrijk, Zwitserland en Italië laat nu zien dat het met een techniek die geometrische deep learning heet mogelijk is om iemand te herleiden aan de hand van zijn interacties.

Twee ‘handdrukken’ ver

De onderzoekers bouwden een model waarin interacties per week werden weergegeven. In een dataset met geanonimiseerde telefoongegevens van 43.000 mensen kon het model in 52 procent van de tijd iemand correct identificeren op basis van directe interacties én de interacties van de mensen met wie zij interacteerden – twee ‘handdrukken’ ver dus. Als alleen de directe interacties bekeken werden, kon iemand zo’n 15 procent van de tijd correct geïdentificeerd worden. De interacties blijven in de tijd enigszins stabiel, na 20 weken werd nog 24 procent correct geïdentificeerd met gegevens over interacties van twee ‘handdrukken’ ver.

Ze hebben hun model ook toegepast op bluetooth-nabijheidsgegevens, die onder meer gebruikt worden om besmettingen met Covid-19 te monitoren. Daaruit bleek dat het model in 26 procent van de gevallen correct voorspelde wie iemand was op basis van alleen directe contacten.

„Deze onderzoekers hebben weer een extra manier gevonden om individuen te herleiden”, zegt Frederik Zuiderveen Borgesius, hoogleraar ict en recht aan de Radboud Universiteit in Nijmegen. „Ze kunnen hiermee nog geen naam of adres op de telefoongegevens plakken, maar helemaal anoniem is het ook niet meer, en dat wordt wel vaak geclaimd. De grens van wat persoonsgegevens zijn en wat dus onder de [Europese privacywet] AVG valt, schuift dankzij dit soort technieken steeds verder op.”

„Ik denk dat de juristen van Europese telecombedrijven wel zullen balen van dit onderzoek. Die bedrijven verhandelen zulke gegevens graag”, zegt Zuiderveen Borgesius. „Ze kunnen hun gegevens nu verder gaan anonimiseren, maar ze kunnen ze ook gewoon netter gaan behandelen door zelf analyses te gaan doen, over hoe mensenmenigtes zich door een stad verspreiden bijvoorbeeld, en de uitkomsten te verkopen.”