Het moet ergens in die doos zitten

uit het lab Door de recente fraudezaken kwam aan het licht dat ruwe onderzoeksgegevens gemakkelijk kwijtraken, alle gedragsregels ten spijt.

Karel Berkhout

Daar waren de dozen weer. De Erasmus Universiteit Rotterdam (EUR) meldde deze week het vertrek van hoogleraar Dirk Smeesters, die volgens een integriteitscommissie met onderzoeksgegevens heeft geknoeid. De marketingexpert en psycholoog zei het tegendeel niet te kunnen aantonen, doordat archiefdozen met zijn ‘papier-en-potlood data’ bij een verhuizing zijn verdwenen.

Het is een echo van een ander onderzoek naar datafraude door een wetenschapper. Erasmus MC ontsloeg vorig jaar hoogleraar Don Poldermans voor datafabricatie in medische studies. Het integriteitsonderzoek naar Poldermans werd gehinderd doordat in het academisch ziekenhuis dozen met patiëntendossiers zoek waren geraakt.

Het verweer van Smeesters over zijn dozen vindt de integriteitscommissie ongeloofwaardig, net als Smeesters’ verhaal over het crashen van zijn laptop. De verdwijning van de patiëntendossiers werd door het ziekenhuis gezien als een ongelukkige speling van het lot. Maar moedwil of misverstand, de fraudegevallen brengen ook aan het licht dat Nederlandse wetenschappers slordig omgaan met hun onderzoeksdata.

“Tijdens hun onderzoek archiveren wetenschappers hun data doorgaans slecht. Na publicatie van een paper gooien onderzoekers hun data meer dan eens helemaal weg”, zegt Jelte Wicherts, een psycholoog en methodoloog (Universiteit van Tilburg), die de werkwijze in zijn vakgebied geregeld onder de loep legt. “Ik doe ook onderzoek aan het fenomeen intelligentie, waarover grote databestanden zijn. Toen ik een paar jaar geleden een auteur van een artikel vroeg of ik de onderliggende data mocht analyseren, bleken die verdwenen.”

De grootschalige fraude door de Tilburgse psycholoog Diederik Stapel heeft vorig jaar al de schijnwerpers gezet op het databeheer, doordat de hoogleraar jarenlang onderzoeksgegevens bleek te hebben verzonnen. Na de Stapel-affaire liet de KNAW, ‘forum, geweten en stem’ van de Nederlandse wetenschap, de commissie-Schuyt onderzoek doen naar de omgang met data. Het onderzoek is klaar, maar wordt pas in september openbaar en tot die tijd wil voorzitter Kees Schuyt niets zeggen.

Bermudadriehoek

Volgens betrouwbare bronnen is de commissie bij de Nederlandse universiteiten gestuit op een bermudadriehoek van data. Ruwe onderzoeksgegevens, zoals ingevulde enquêtes, zitten nogal eens in slordig gearchiveerde dozen. Bewerkte data – zeg de resultaten in een Excelbestand – staan veelal op de laptop of de personal computer van de onderzoeker. Niet in de labcomputer of de centrale database van de vakgroep of universiteit, waarin collega’s hun data kunnen bekijken.

Dat verschilt overigens van vakgebied tot vakgebied, zegt directeur Peter Doorn van DANS, beheerder van een grote databank met onderzoeksgegevens: “In de astronomie zorgen de waarnemingen van telescopen voor een gigantische datastroom, die altijd voor meerdere onderzoekers zichtbaar is. In de sociale wetenschappen heb je meer onderzoekers die in hun eentje hun data beheren.” Het verschilt ook van universiteit tot universiteit, leert een rondgang van deze krant (zie tabel). Waar onderzoekers in Maastricht hun data bij zich kunnen houden, moeten die in Delft hun data centraal opslaan.

Een onderzoeker die op zijn eigen data zit, komt sneller in de verleiding om te knoeien, denkt Peter Doorn: “Bij de fraudezaken – Stapel, Poldermans, Smeesters – was steeds sprake van een onderzoeker die als eenling opereerde.” Het delen van data kan dan ook helpen tegen geknoei. Centraal opslaan geeft de onderzoeker ook een backup, zegt een woordvoerder van het Academisch Medisch Centrum in Amsterdam: “Want het verhaal ‘laptop gestolen, promotieonderzoek weg’ kent iedereen.”

Voor Wicherts wegen de principiële motieven voor zorgvuldig databeheer het zwaarst: “Slordige omgang met data is gewoon slecht wetenschappelijk onderzoek. Het is verspilling van geld en van waardevol onderzoeksmateriaal, waar collega-wetenschappers nog veel nieuwe kennis uit zouden kunnen halen.” Goed onderzoek betekent juist dat je anderen laat meekijken, vindt hij: “Waarom zou jouw statistische methode de beste zijn? Geef collega’s de kans te zeggen: je kunt beter die methode gebruiken. En statistiek is zeer foutgevoelig. Ik laat een collega daarom mijn analyse altijd controleren.”

De gedragscode van de de VSNU, de vereniging van universiteiten, schrijft al sinds 2004 voor dat onderzoekers netjes moeten omgaan met hun data (zie kader Adviezen databeheer). Toch signaleerden de commissies die de fraude van Stapel en Smeesters onderzochten recentelijk grote gebreken in het databeheer. “De norm is heel duidelijk en de praktijk uiterst weerbarstig”, zegt een woordvoerder van de VSNU.

De VSNU heeft onlangs het integriteitsbeleid aangescherpt, na een advies van de rectores magnifici. De rectoren hebben ook gesproken over de ‘ongestructureerde omgang met data’ en stellen nu hun hoop op de commissie-Schuyt. Naar verluidt zal die een centrale dataopslag adviseren, en de verplichting om artikelen voortaan te publiceren mét datasets.

Gesloten databank

De geschrokken Erasmus Universiteit heeft nu al besloten om zijn onderzoekers te verplichten om data centraal op te slaan. De Universiteit Leiden gaat dat ook doen, zegt een woordvoerster: “Het streven is een gesloten databank, waarin alle inlogs en wijzigingen worden geregistreerd, zodat rommelen niet meer kan.” De Leidse databank wordt ingevoerd als de commissies-Lévelt (Stapel) en Schuyt klaar zijn: “Mogelijk staan in hun rapporten nog praktische raadgevingen.”

Bijvoorbeeld over “handhaving van de norm”, hoopt de VSNU. Om te zorgen dat onderzoekers hun data inderdaad in een databank zetten, pleit Wicherts voor een steekproefsgewijze controle. De Universiteit van Tilburg, die na het Stapel-debacle werkt aan centrale opslag, zal bij visitaties letten op het delen van data.

NWO, met een jaarbudget van een half miljard de belangrijkste financier van wetenschappelijk onderzoek, ziet data uit door NWO betaald onderzoek als eigendom van de gemeenschap. “Die data moeten dus gedeeld worden”, zegt voorzitter Jos Engelen: “Subsidieaanvragen moeten op termijn vergezeld gaan van een ‘datamanagement-plan’ voor het beheer van onderzoeksgegevens.” De uitwerking kost tijd, doordat onder meer de privacy bij medische data gewaarbord moet worden. “Maar mijn gevoel is nu dat we dit bij minder gevoelige data snel gaan regelen. À la carte, per vakgebied.”

Het delen van data biedt wetenschappers ook kansen, zegt Wicherts: “Als collega’s uit jouw data nieuwe dingen halen, kun je meer publiceren (als co-auteur) en word je vaker geciteerd.” Wicherts en collega’s komen dit najaar met een online tijdschrift waarin onderzoekers hun data vrijgeven voor beoordeling: “Peer reviewed, zodat een artikel ook zorgt voor een hogere publicatie-index.”

Ervaringen met slordig databeheer? Schrijf wetenschap@nrc.nl

    • Karel Berkhout