Het gevaar van open data

Geheimhouding is uit. In de 17de eeuw hield de grote natuurkundige Newton zijn wiskundige ontdekkingen tientallen jaren geheim om te voorkomen dat iemand anders met de eer ging strijken, maar tegenwoordig worden onderzoekers gemaand om hun complete ruwe gegevens zo snel mogelijk op internet te zetten. Dat zou dubbel onderzoek besparen en fraude tegengaan. Ik denk dat het nut voor fraudebestrijding wordt overschat, en dat verplichte openbaarheid kwaad kan doen.

Het is een misverstand dat onderzoekers niemand in hun keuken laten kijken. Bij onderzoek naar de oorzaken van ziektes is het heel gebruikelijk dat verschillende onderzoekscentra hun gegevens combineren. Dat heet poolen, naar het Engelse woord voor ‘vijver’. Maar fraudeurs zullen zich daar waarschijnlijk aan onttrekken; wie de onlangs ontmaskerde sociaal psycholoog uit Tilburg had gevraagd om mee te doen aan een pooling van vleeshuftergegevens was vermoedelijk met een kluitje in het riet gestuurd. NWO, een overheidsinstelling die veel van het onderzoek aan universiteiten financiert, hoopt dat verplichte openbaarmaking van ruwe data ertoe zal leiden dat dergelijke fraudeurs eerder worden ontmaskerd.

Ik betwijfel dat. Als het verplicht wordt ruwe meetgegevens te openbaren, verzint een beetje fraudeur die meetgegevens er gewoon bij, en zelfs als hij dat onhandig doet gaan andere wetenschappers die getallen niet narekenen. Ze hebben het al druk genoeg. En al zou iemand het narekenen en verdenking opvatten, wat dan? Verdenken is één, maar bewijzen is twee. Je kunt de mogelijkheid openen om iemand anoniem te beschuldigen, maar een wetenschapper kan vijanden hebben die dat misbruiken.

Ik zie meer in het systeem van het instituut waar ik zelf bij werk. Wij hebben tweehonderd jonge onderzoekers die met ruwe gegevens werken. Daarvan krijgen er per jaar telkens vijftien bezoek van de kwaliteitscommissie. Die commissie helpt beginnende wetenschappers om hun onderzoek te organiseren, maar bij zo’n audit kijken ze ook in de pc van de onderzoeker en ze vragen hem om te demonstreren hoe hij aan de getallen van zijn laatste publicatie kwam. Ik zie meer in zo’n controle dan in het op internet zetten van onderzoeksgegevens in de hoop op een idealist die het narekent en aan de bel trekt.

Het openstellen van ruwe gegevens biedt bovendien aan kwaadwillende organisaties nieuwe mogelijkheden om onderzoek te ondermijnen. Sommige organisaties kunnen lelijk getroffen worden door uitkomsten van wetenschappelijk onderzoek. Het kan een ministerie betreffen waarvan het beleid niet blijkt te werken of een actiegroep die de gevaren van een milieuramp heeft overdreven, maar het zijn vooral industrieën die last hebben van universitaire research. Asbestproducenten moeten betalen als asbest longkanker blijkt te veroorzaken en oliemaatschappijen zien hun omzet bedreigd door klimaatonderzoek. Ook fabrikanten van bier, frisdrank en roomboter ondervinden nadelige publiciteit als gevolg van universitair onderzoek.

Daarom doen deze bedrijven aan ‘defensieve research’. Ze financieren onderzoek dat zo is opgezet dat de nadelige effecten niet worden gevonden. Ook laten ze public relations-bureaus campagnes ontwerpen om slecht nieuws onschadelijk te maken. Het pr-bureau Hill & Knowlton bedacht ooit voor de tabaksindustrie een strategie om het onderzoek naar roken en longkanker te neutraliseren. Die strategie was even simpel als doeltreffend: niet bestrijden, alleen twijfel zaaien. Er moesten krantenkoppen komen met woorden als: ‘Controversy! Contradiction! Other Factors! Unknowns!’ Het doel was niet om onderzoek te ontkrachten maar om onzekerheid te creëren. ‘Doubt is our product.’ Die strategie is overgenomen door vrijwel alle bedrijven die door universitair onderzoek in het nauw komen.

Zo’n industrie wordt enorm geholpen als ze de complete getallen van de tegenstander in handen hebben. Ze hoeven geen bedrog of grove fouten aan te tonen, één uitkomst die in een andere richting wijst is genoeg. “Zeker, er is wellicht een nadelig effect, maar niet bij vrouwen boven de veertig. Moet dat niet worden uitgezocht?” Het kan ook vegetariërs betreffen, of mensen met huisdieren. Als de computer lang genoeg draait, vind je altijd iets en het pr-bureau zorgt dat de nieuwe ontdekkingen met de juiste spin in de krant en op de tv komen.

Waarom zorgen wetenschappers niet dat er maar één conclusie mogelijk is uit hun gegevens? Daarin zit het verschil tussen wetenschappers en advocaten. Een advocaat presenteert alleen de gunstige kanten van de zaak van zijn cliënt, en uit zijn pleitnota is maar één conclusie mogelijk: wij hebben gelijk. De advocaat van de tegenpartij geeft de andere kant van de medaille, en de rechter beslist. Zo werkt de rechtsstaat. Een wetenschapper daarentegen moet proberen zijn eigen ongelijk aan te tonen. Pas als dat niet lukt mag hij hopen een stukje van de waarheid in handen te hebben. Daarom moet hij zuinig zijn op tegenstrijdige gegevens, want iedere tegenstrijdigheid kan waardevol zijn.

Ik ben dus niet voor ‘Open Data’. We hoeven onze bevindingen niet geheim te houden à la Newton, maar het uitleveren van complete databestanden aan pr-bureaus nodigt uit tot misbruik.

Bronnen: zie mkatan.nl

    • Martijn Katan