Open data (2)

Ik ben het eens met Katan dat open data als oplossing voor fraudebestrijding wordt overschat. Ik betreur het echter dat de rest van zijn betoog door angst voor verkeerd gebruik geregeerd wordt. Bij mijn universiteit is er momenteel veel discussie gaande over het openbaar maken van onderzoeksgegevens. Een eenvoudige oplossing die in eerste instantie zelfs wat naïef lijkt, is het openbaar maken van je gegevens alléén voor academisch gebruik. Onderzoekers van Centerdata van onze Universiteit doen dat al jaren voor enkele studies en het werkt. Op deze wijze is dus te voorkomen dat industrie of pr-bureaus je data zouden misbruiken.

Daarnaast kan men zich afvragen of de potentiële negatieve impact van misbruik van openbare data opweegt tegen de positieve impact van openbare data. Het openbaar maken van Amerikaanse kankerregistratie (SEER) data was onderwerp van discussie om de simpele reden dat men bang was dat kankercijfers misbruikt zouden worden (dat bijvoorbeeld huizenkopers niet in bepaalde gebieden zouden willen wonen omdat daar relatief veel kanker voor zou komen). Nu de data alweer jaren online staan, blijkt het eventueel misbruik van data (ik ken geen daadwerkelijke voorbeelden) niet op te wegen tegen de toegenomen kennis over Amerikaanse kankercijfers.

Onderzoekers zijn daarnaast vaak bang dat na jarenlang hard werken aan de dataverzameling, een ander met de eer gaat strijken. Of dat er parels in een dataset worden ontdekt die men zelf over het hoofd zag. Maar ook daar zijn oplossingen voor te bedenken. Als epidemioloog bevraag ik met mijn onderzoeksgroep sinds 2004 mensen die kanker hebben gehad. De primaire onderzoeksvragen worden zoveel mogelijk binnen een jaar getoetst en opgeschreven in wetenschappelijke artikelen. Op het moment dat we zelf onze secundaire hypothesen willen gaan toetsen zetten we de gegevens online (www.profilesregistry.nl).

Een Amerikaanse wetenschapper gebruikt nu onze dataset om zijn onderzoeksvraag te beantwoorden. Deze kennismaking met ‘Open Access’ is positief: we hebben onze data-archivering en disseminatie verbeterd door kritische vragen van de buitenstaander, onze dataset blijkt meer parels te bevatten dan wij zelf direct zagen en die worden nu beschreven (en blijven dus niet verborgen in een hermetisch gesloten oester). Wij hebben op deze manier onze kennis en netwerk vergroot én we kunnen zelfs met de eer strijken door co-auteurschap. In het geval van ons onderzoek waaraan duizenden patiënten vrijwillig hun medewerking verlenen vind ik het zelfs ethisch niet uit te leggen dat die gegevens alleen door onze groep te gebruiken zijn.

Lonneke van de Poll-FranseHoofd afdeling onderzoek, Integraal Kankercentrum Zuid & Universitair Hoofddocent Kanker Epidemiologie, Universiteit van Tilburg

Naschrift Martijn Katan:

In de psychologie werkt beperken van gegevens tot academisch gebruik kennelijk goed. Bij onderzoek naar geneesmiddelen of voedsel staan echter miljoenen op het spel, en universiteit en bedrijfsleven zijn sterk verweven. ‘Academisch gebruik’ is dan een illusie; een bedrijf vindt altijd een hoogleraar die de data voor ze opvraagt en een analyse doet die aansluit bij het bedrijfsbelang.