Opinie

Hoe weet je wat je weet in tijden van dataverering?

Maxim Februari

Zojuist bestel ik online een kaartje voor een lezing in een museum. Het museum vraagt naar mijn „land van herkomst”. Volgens het formulier is het verplicht hierop antwoord te geven en dus vul ik „Barbados” in. Dat lijkt me een leuk land om vandaan te komen, al weet ik het natuurlijk niet zeker, want ik ben er nog nooit geweest. Hopelijk zal mijn bezoek aan het museum straks goed zijn voor de Nederlands-Barbadaanse betrekkingen.

Een paar dagen eerder gaf de directeur van burgerrechtenbeweging Bits of Freedom op de site het advies kaartjes te kopen „als een guerrilla”. Dat een organisatie om je gegevens vraagt, schreef hij, betekent nog niet dat je die ook moet geven. Mij hoefde hij dit niet te vertellen, ik vul al jaren als adres „Privacystraat 123” in, maar hij kwam wel met verdere interessante suggesties. Over valse identiteiten, bijvoorbeeld. En over programma’s die je bij iedere mail een ander mailadres laten gebruiken.

Nou kun je tegenwerpen dat musea en theaters al die privégegevens wel degelijk nodig hebben. Bijvoorbeeld voor de verantwoording die ze moeten afleggen aan financiers of subsidiegevers. Maar daar kun je weer tegenin brengen dat financiers maar eens moeten leren inzien hoe onbetrouwbaar gegevens zijn. Dat is een les die gaat over veel meer dan privacy alleen. Die gaat namelijk ook over kennisclaims in het tijdperk van de gegevensverheerlijking. Hoe weet je dat je weet wat je weet?

In India is deze week twijfel ontstaan over de betrouwbaarheid van het Central Statistics Office (CSO). Er blijken grote gaten te zitten in de nieuwe database waarmee het bruto binnenlands product van India is berekend: 38 procent van de bedrijven die waren meegeteld, bestaat niet of is verkeerd geclassificeerd. Slapende bedrijven staan bovendien pontificaal op de lijst van actieve ondernemingen die het ministerie bijhoudt. De verlegenheid is des te groter, omdat al een paar Indiase overheidsrapporten zijn verschenen op basis hiervan.

Zulke fouten en gaten roepen diepere vragen op over de methodologie. Critici willen de database kunnen controleren: ze eisen publicatie van alle gegevens en een statistische audit door experts. En wie weet helpt het. Deze fouten kun je tenminste nog terugdraaien door alle bedrijven van India op te bellen en te vragen of ze bestaan. Maar hoe controleer je andere gegevens en classificaties? Nu de formulieren je om de oren vliegen, valt op hoeveel onzin je moet invullen om überhaupt tot organisaties door te dringen. „Wat vond u van onze baliemedewerker?” „Maar er wás geen baliemedewerker!” „Antwoorden op deze vraag is verplicht.”

In onzekere tijden is de behoefte aan houvast groot. Vandaar al die lijsten. Met niet bestaande bedrijven. Met vragen die je niet wilt beantwoorden – land van herkomst? Of niet kunt beantwoorden – hoe beviel de baliemedewerker? De wereld slibt dicht met non-feiten. „De kwaliteit van jullie zorg is uitmuntend, vooral de baliemedewerker was een juweel.” Deskundigen beweren intussen dat dit probleem vanzelf wordt opgelost door het gebruik van steeds meer gegevens: aan een boom zo volgeladen, zie je één, twee rotte appels niet. Hoe Bigger de Data, hoe minder last van onzuiverheden.

Dat zou dan vooral gelden voor gedragsgegevens, weetjes die je niet over jezelf loslaat door vragen te beantwoorden, maar door iets te doen. De Amerikaanse data wetenschapper Seth Stephens Davidowitz claimt zelfs dat je kunt achterhalen wat mensen diep van binnen denken door hun zoekgegevens te bekijken. Wat ze niet aan hun partner vertellen, vertellen ze eerlijk aan Google en Pornhub. „Deze sites functioneren als een soort digitaal waarheidsserum.”

Pornosite als waarheidsserum: de kennisclaim is aanzienlijk. Maar de wetenschap erachter overtuigt allerminst. Uit Big Data over het gedrag van mannen op pornosites trekt Stephens-Davidowitz verregaande conclusies over het aantal homomannen in een populatie, zonder zich te realiseren dat kijkgedrag iets anders is dan de manier waarop je je identificeert. De behoefte aan houvast en stelligheid is groot, maar de definities ontbreken en de redeneringen lopen spaak.

Al die lijsten en verzamelingen gaan gepaard met kennisclaims. Soms zijn de hoeveelheden gegevens zo groot dat ze niet meer door mensen worden verwerkt. Dan doen machines onderzoek dat geen enkele menselijke onderzoeker nog kan dupliceren: de claims kunnen niet meer worden aangevochten of afgewezen. Hoe weet je dat niet 38 procent van de input of 88 procent van de definities onzin is?

Stelligere claims en minder mogelijkheden om ze te controleren. Dat is de grappige achtergrond van het kopen van museumkaartjes als een Barbadaan.

Maxim Februari is jurist en schrijver, www.maximfebruari.nl.