Ja, veel uitkomsten zijn twijfelachtig, maar...

Van tweederde tot de helft van honderd onderzoeken zijn de uitkomsten niet repliceerbaar, stond in Science. Maar dat zegt niet meteen dat al dat onderzoek onzin is, vinden Nederlandse onderzoekers.

Zo, dat vakgebied kunnen we nu wel weggooien. Die reactie hadden sommige mensen op het nieuws, gisteren in het wetenschappelijke tijdschrift Science, dat van de helft tot twee derde van honderd gepubliceerde onderzoeken uit de psychologie de resultaten niet repliceerbaar waren. 270 onafhankelijke onderzoekers hadden de studies herhaald, en kregen andere resultaten. Alwéér is de psychologie in opspraak. Het vakgebied dat de laatste jaren toch al door een aantal fraudegevallen werd opgeschrikt, te beginnen met Diederik Stapel in 2011.

Prominente psychologen reageren geschokt, niet op het onderzoek maar op de nieuwe commotie. „Goed dat ze dit replicatieonderzoek gedaan hebben”, zegt sociaal psycholoog Naomi Ellemers, lid van de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW) en per 1 september universiteitshoogleraar in Utrecht. „Maar je hebt wel meteen de angst dat het in de publiciteit komt als: ‘dat is een stelletje knoeiers’.” „Er hangt meteen een saus omheen dat we allemaal frauduleus onderzoek doen”, beaamt de Amsterdamse hoogleraar organisatiepsychologie Carsten de Dreu, ook KNAW-lid. En waar die critici al helemaal overheen kijken, zegt hij: „De psychologie is een van de weinige vakgebieden die dit zo serieus en grootschalig doet. Misschien is elders wel hetzelfde aan de hand terwijl we dat niet weten.”

Veertig procent wel in orde

Daarover straks meer. Intussen klinkt de jonge Eindhovense psycholoog Daniël Lakens, één van de 270 psychologen die zich samen de Open Science Collaboration noemen, uiterst opgewekt. „De gemiddelde repliceerbaarheid van sociaal en cognitief psychologisch onderzoek ligt lager dan je zou willen”, zegt hij. „Maar dat betekent niet dat al dat onderzoek onzin is. Die 40 procent is niet niks. Die is best knap als je bedenkt dat je wezens bestudeert met een vrije wil, die maar van alles doen. Om daar patronen in te herkennen is ook echt heel moeilijk.”

En honderd procent repliceerbaarheid is „praktisch gezien” ook niet wat je wilt, zegt hij. „Dan moet je elk onderzoek direct een paar keer doen, met heel grote steekproeven.” Als je alles héél voorzichtig doet, gaat het beter. „Je kunt er ook voor zorgen dat in Nederland niemand meer overlijdt in een auto-ongeluk, maar dan moet wel iedereen 20 kilometer per uur gaan rijden. Dat wil je niet. De repliceerbaarheid moet hoger liggen, maar waar precies, daar kun je over discussiëren.”

Daar moeten beleidsmakers zich ook mee bemoeien, vindt hij. „Die financieren onderzoek en kunnen onderzoekers stimuleren om langzamer en betrouwbaarder te gaan werken. We zien dat goed ontworpen studies een betere kans maken om te repliceren. Sommige tijdschriften zeggen nu al dat ze alleen onderzoek met grotere steekproeven willen.” Ook journalisten kunnen wat van het onderzoek leren, zegt hij. Verrassende effecten bleken minder goed repliceerbaar – dus of de media niet meteen op elk nieuw, idioot verrassend onderzoekje willen springen. Lakens vond de resultaten in Science overigens niet heel verrassend.

Alleen makkelijke studies

De Dreu en Ellemers hebben er wel kanttekeningen bij. Er is bijvoorbeeld geen random steekproef van artikelen onderzocht, zegt De Dreu. „Alleen studies die relatief makkelijk te doen zijn.” Eén van zijn eigen onderzoeken stond eerst ook op de lijst, maar uiteindelijk vonden de onderzoekers het te ingewikkeld om dat over te doen. Dus de conclusie moet zijn, zegt De Dreu, dat de helft tot tweederde van relatief makkelijk te herhalen onderzoek niet repliceerbaar is. „Niet de helft of twee derde van de héle sociale en cognitieve psychologie.”

Het is inderdaad geen random steekproef, zegt Lakens. „Maar dit is nog een vrij redelijke afspiegeling. En eerder werd onderzoek alleen gerepliceerd als mensen toevallig sceptisch waren. Dat geeft ook een vertekend beeld: als je al denkt ‘dit gaat niet werken’, dan werkt het vaak ook niet.”

Wat betekent niet repliceren?

Maar wat betekent het eigenlijk als een onderzoek niet gerepliceerd wordt, vraagt Ellemers zich af. „Het zegt iets over de aard van de metingen. Er zit veel ruis in die studies.” Want menselijk gedrag is zo complex. „Het blijft een moeilijk verhaal als iets de ene keer wel werkt en de andere keer niet. Wij hadden laatst in een onderzoek naar discriminatie één blanke en één zwarte proefleider, en de resultaten draaiden precies om. Achteraf zeg je: natuurlijk is dat relevant, maar voordat je erachter bent dat dát het is... Zo kom je ook nieuwe dingen op het spoor.”

En de huidige wetenschap is sowieso altijd een tussenstand, benadrukt ze. „Als een medisch onderzoeker een nieuw enzym heeft ontdekt, hoef je ook niet meteen naar de dokter te gaan: ‘mag ik die pil?’ – daar zit jaren tussen. Dat is bij ons niet anders.”

Oh, de medische wetenschap, zegt Lakens. „Ja, daar is de situatie veel dramatischer, daar is de repliceerbaarheid nóg lager. Als je de psychologie wilt bekritiseren, kijk dan eerst eens naar medisch onderzoek.”

Er is inderdaad veel commotie rond de repliceerbaarheid van onderzoek in de biomedische wetenschappen, zegt geneticus Hans Clevers, oud- president van de KNAW. „Dat komt met name door een artikel over kankeronderzoek in Nature. Daarvan zou 80 procent niet repliceerbaar zijn, maar wat het eigenlijk betekende, was dat 80 procent niet robuust genoeg was om er al industriële processen op te baseren. Als je mij vraagt hoeveel van het gepubliceerde biomedische onderzoek niet klopt, zou ik zeggen: 30 procent.” Wetenschap is ook een proces, van sommige dingen weet je niet meteen precies hoe ze in elkaar zitten. „Dat is het gebied waarover we nog in dubio zijn, waarvan achteraf persoon A gelijk krijgt en niet persoon B.”

Die 30 procent is weliswaar fors minder dan de circa 60 procent niet gerepliceerde onderzoeksresultaten in het Scienceartikel over psychologie van gisteren, maar het is ook nog niet in onderzoek vastgesteld.

Ook medici onder de loep

Zulk onderzoek is nu wel onderweg. Onder leiding van dezelfde Brian Nosek, die ook het Science-onderzoek leidde, worden momenteel honderd veel geciteerde artikelen over kankerbiologie uit 2010-2012 tegen het licht gehouden en het onderzoek eruit wordt deels overgedaan. Er zit ook een artikel van Clevers bij, over stamcelactiviteit in gezwellen in muizendarmen (Science, 2012). „Toch een beetje spannend”, zegt hij. „Op congressen wordt er ook eindeloos aan dit nieuwe onderzoek gerefereerd. Als vakgebied wil je wel zo betrouwbaar zijn dat de geldstroom niet in gevaar komt. Maar dit is absoluut geen fraude, dat staat daar los van. In het hart zijn we zeker, maar aan de randen zijn we zoekende.”

Dat zeggen ook Ellemers en De Dreu. „Er zijn meer manieren om vast te stellen wat de waarde van resultaten is dan directe replicaties van experimenten in het lab”, zegt Ellemers. „We doen ook interviews, we observeren mensen. We doen niet alleen directe replicaties, maar ook conceptuele replicaties. En als dat allemaal dezelfde kant op wijst, dan vind ik dat interessanter dan een directe replicatie. Alleen directe replicaties doen, is niet de koninklijke methode.”

„Het is ook maar één datapunt”, bevestigt Lakens. Maar hij wordt er toch blij van. „Het idee dat je grootschalige samenwerking kunt organiseren in de wetenschap, terwijl die zó competitief is ingericht... Dat is heel mooi om te zien.”