Speuren naar ál te mooie patronen

Door onderzoeksdata slim te analyseren spoorde Uri Simonsohn de fraude van Dirk Smeesters op. Hij heeft zo nog twee fraudeurs gevonden.

Karel Berkhout

Redacteur Wetenschap

Wie volgt? De ontmaskering van marketingexpert en psycholoog Dirk Smeesters als fraudeur, drie weken geleden, lijkt slechts het begin van een reeks gevallen van wetenschappers die worden betrapt op datafraude. Onder wetenschappers gaan al namen rond van onderzoekers die binnenkort mogelijk als knoeier aan de schandpaal zullen worden genageld.

Deze jacht op wetenschapsfraude is ingezet door de Amerikaanse econoom Uri Simonsohn (Universiteit van Pennsylvania), die onderzoeksgegevens van wetenschappelijke artikelen controleert met een zelfbedachte analysemethode. Simonsohn bracht de affaire-Smeesters aan het rollen met zijn melding over onwaarschijnlijke data in Smeesters’ publicaties. In een interview met het tijdschrift Nature zegt Simonsohn, die ook de verzonnen data van de vorig jaar gevallen Tilburgse psycholoog Diederik Stapel heeft geanalyseerd, dat hij nog twee frauderende – nog onbekende – wetenschappers onder het vergrootglas heeft gelegd.

Simonsohn is daarmee een nieuw type klokkenluider: geen ingewijde die uit rancune of gewetensnood een naaste collega erbij lapt, maar een buitenstaander die na controle van openbare informatie aan de bel trekt. „Zijn methode, statistische analyse van data, opent de mogelijkheid om veel artikelen te controleren”, zegt psycholoog en methodoloog Jelte Wicherts van de Universiteit van Tilburg.

Simonsohns aanpak is overigens niet helemaal uniek. Een andere ‘buitenstaander-klokkenluider’ is bijvoorbeeld de Japanse bioloog die onder de schuilnaam Juuichi Jigen (‘elf dimensies’) op zijn blog voorbeelden van gemanipuleerde microscoopfoto’s van onderzoeksgroepen plaatst en zo eerder dit jaar een geneticus ontmaskerde als fraudeur. En statistische analyses leidden onlangs tot de val van de Japanse anesthesioloog Fujii, die met 172 fraudeleuze artikelen de geschiedenis ingaat als de grootste wetenschapsfraudeur ooit.

De statistische analysemethode van Simon-sohn is wel nieuw; zijn artikel hierover moet nog gepubliceerd worden. Tegen Nature zei hij: „Het basisidee is om te kijken of de data te dicht bij de theoretische voorspelling zitten.”

Nu is dat de grondslag van alle statistische fraudedetectie in databestanden. Zo ontmaskerde Ronald Fisher (1890-1962), een van de aartsvaders van de statistiek, in 1936 al de data van de geneticapionier Mendel als ‘te mooi om waar te zijn’. De wetenschapper die fraudeert bewerkt of verzint zijn data zo dat die de hypothese ondersteunen. Het is alleen lastig om dat zo te doen dat het er echt uitziet, onder meer doordat mensen geneigd zijn om de toevalsschommelingen in data te onderschatten.

De steekproefvariatie in gemiddelden binnen groepen proefpersonen geeft aan hoeveel de gemiddelden tussen groepen proefpersonen moeten verschillen. Zitten die laatste gemiddelden dichter bij elkaar dan verwacht, dan is er iets raars aan de hand. Dat was het geval bij drie artikelen van Smeesters, vond de integriteitscommissie van de Erasmus Universiteit Rotterdam. ‘Datamassage’, concludeerde de commissie, die meer ‘vreemde patronen’ in Smeesters’ data vond.

Smeesters ontkent data te hebben verzonnen en zegt alleen proefpersonen te hebben weggelaten. Volgens Simonsohn krijg je met zulke ‘massage’ alleen nooit van die prachtdata als Smeesters. Daarmee is Wicherts het niet eens: „Ik heb de data van een teruggetrokken artikel geanalyseerd en volgens mij krijg je de resultaten ook met een heel stevige massage.”

Richard Gill, hoogleraar statistiek aan de Universiteit Leiden, mist in het rapport van de integriteitscommissie onderbouwing – onder meer doordat de ruwe data van Smeesters zijn verdwenen. „De statistici die daaraan werkten, weigeren om kleine technische vragen te beantwoorden”, zegt Gill. „Het is wel wrang dat Smeesters op zijn donder krijgt omdat zijn statistische analyses niet reproduceerbaar zijn, terwijl het rapport van Erasmus dezelfde tekortkomingen heeft.”