Reddingsboei van madeliefjes

Wetenschapsfraude Psychologen op de bres voor hun vakgebied: ze willen vaker elkaars onderzoek repliceren. Als in een keten madeliefjes.

Een jonge psychologe wilde een paar jaar geleden bij het onderzoek voor haar proefschrift voortbouwen op het werk van Diederik Stapel, toen nog de golden boy van de sociale psychologie in Nederland. Om die reden probeerde zij twee jaar lang om een onderzoek van de Tilburgse hoogleraar te herhalen. Maar het repliceren mislukte keer op keer.

“Toen heeft haar verstandige hoogleraar gezegd: nu gaan we wat anders doen”, vertelt Pim Levelt, voorzitter van de commissie die afgelopen week het eindrapport publiceerde over de omvangrijke wetenschapsfraude door Stapel. “Dit soort gevallen zullen er veel meer zijn. We hebben meldingen gehad uit Duitsland, Amerika en Nederland. Wetenschappers hebben veel tijd en geld verspild aan het tevergeefs proberen te repliceren van de resultaten die de heer Stapel gepubliceerd heeft.”

Inmiddels is duidelijk waardoor de replicaties mislukten. Stapel heeft voor in elk geval 55 publicaties de onderzoeksdata verzonnen, en waarschijnlijk voor nog eens 10 artikelen. Zijn vakgenoten hebben het laten gebeuren, zegt de commissie-Levelt, want zij waren verblind door de overvloedige ‘slodderwetenschap’ in hun vakgebied. In de 137 publicaties van Stapel vond de commissie allerlei vormen van ‘verificatiebias’: het weglaten van proefpersonen en data die de hypothese niet bevestigen.

Replicatie, een belangrijk wapen tegen die verificatiebias, is daarentegen een zeldzaamheid. Zowel bij co-auteurs van Stapel, die nalieten om hun resultaten door herhaling van het experiment nog eens te testen, als bij collega-wetenschappers. ‘Steeds weer werd door tijdschriften en ervaren onderzoekers op het gebied van de sociale psychologie geaccepteerd dat de hypotheses van de heer Stapel alsmaar in een enkel experiment bevestigd werden’, schrijft de commissie-Levelt. ‘Men accepteerde, indien men zelf al probeerde te repliceren, dat men faalde omdat men niet de kunde van de heer Stapel had. Maar doorgaans repliceerde men niet en zeker niet onafhankelijk.’

De jonge onderzoekster, die vorig jaar overigens uiteindelijk op een ander onderwerp is gepromoveerd, heeft het in elk geval geprobeerd. Daarmee belichaamt zij de nu snel in aantal toenemende pogingen van de sociaal psychologen om de replicatie een volwaardige plek te geven in hun vakgebied. Het meest opvallende initiatief is het grootschalige Reproducibility Project, waarbij psychologen gaan proberen om van alle artikelen die in 2008 zijn gepubliceerd in drie toonaangevende psychologische tijdschriften de resultaten te repliceren.

Een van de vroegste initiatieven komt uit Nederland, van onder anderen de hoogleraren psychologie Paul van Lange (VU) en Naomi Ellemers (Universiteit Leiden). Kort nadat de affaire-Stapel in september 2011 aan het licht kwam, stelden zij al een handvol aanbevelingen op om de onderzoekspraktijk in de sociale psychologie te verbeteren. “We willen lering trekken uit de affaire-Stapel voor ons vakgebied”, zegt Ellemers.

Het artikel Sharpening Scientific Policy After Stapel is inmiddels gepubliceerd op onder meer de website van de ASPO, de vereniging van Nederlandse sociale psychologen. “Deze notitie is heel vroeg en snel gemaakt”, vindt Levelt, “en ook netjes en heel zorgvuldig.”

Onzichtbare replicaties

Een van de belangrijkste aanbeveling hierin is om werk te maken van replicaties. “Een onderzoeksbevinding is niet meteen een wetenschappelijk feit, het is een aanwijzing. Pas met veel van die aanwijzingen heb je echt iets in handen”, zegt Van Lange. Volgens hem toont het voorbeeld van de jonge promovenda dat sociaal psychologen wel degelijk proberen om onderzoeken te repliceren.

Dat die replicaties onzichtbaar blijven, komt doordat tijdschriften weinig interesse hebben voor onderzoeken die ‘niks opleveren’. “In die tijdschriften komen nu vooral de significante resultaten. Dat is de publicatiebias”, zegt Van Lange. Eén aanbeveling is daarom om ook mislukte replicaties te publiceren in wetenschappelijke tijdschriften. “Je mist nu al die resultaten die niet significant zijn. Zo blijkt uit een recente meta-analyse dat de effectiviteit van psychotherapie voor depressie bij volwassenen in de literatuur wordt overschat door de publicatiebias.”

Wetenschappelijke tijdschriften en websites beginnen nu daarom voorzichtig ruimte te bieden aan replicaties en niet-significante resultaten, zoals het open access-tijdschrift PLOS ONE en het Amerikaanse vaktijdschrift Psychological Science. Bij een nieuw psychologisch tijdschrift in oprichting wordt geëxperimenteerd met een opzet, waarbij een onderzoeker een voorstel plus methode indient; als dit na collegiale beoordeling (peer review) wordt goedgekeurd, publiceert het tijdschrift het uiteindelijke artikel – wat er ook uitkomt.

In het novembernummer van Perspectives on Psychological Science (PPS), een themanummer waarin maar liefst 23 artikelen zijn gewijd aan replicatie, worden ook voorstellen gedaan om (mislukte) replicatieonderzoeken te belonen. Een ervan spreekt Levelt wel aan: “Neem een belangrijk artikel met een experiment. Repliceer dat en schrijf het keurig op. Het artikel wordt gereviewd en het tijdschrift hangt dit aan het oorspronkelijke artikel. Dus altijd als het oorspronkelijke artikel wordt geciteerd, wordt het replicatie-artikel meegeciteerd.”

Volgens Van Lange vindt er momenteel ook veel discussie plaats bij verschillende tijdschriften over de beoordeling van niet-significante bevindingen. “Een discussiepunt is dat er voor niet-significante bevindingen vaak meerdere verklaringen mogelijk zijn en de conclusies daardoor vaak wat minder dwingend zijn dan voor significante bevindingen. Hoe dan ook, de groeiende waardering voor replicatieonderzoek is winst.” Al is het wat tijd en geld betreft ondoenlijk, vindt hij, om ál het onderzoek systematisch te controleren of te repliceren.

Langzamer lopen

De groeiende waardering voor replicatie leidt ook tot (soms felle) discussies. Zo publiceerde de Amerikaanse psycholoog John Bargh (Yale) in 1996 een beroemd onderzoek, waaruit bleek dat mensen langzamer gaan lopen als ze geconfronteerd worden met begrippen die te maken hebben met ouderdom. Het onderzoek was het startschot voor veel meer onderzoek naar social priming, mensen laten reageren op hun omgeving zonder dat ze zichzelf daarvan bewust zijn. De Belgische psycholoog Stéphane Doyen (Vrije Universiteit Brussel) kon dit experiment onlangs echter niet repliceren (PLOS ONE, maart 2012). Bargh reageerde daarop zo heftig – Doyen en zijn co-auteurs zouden ‘amateurs’ zijn – dat de kwestie onder psychologen ‘Bargh Gate’ is gaan heten.

Het laat zien hoe ingewikkeld het is om dit soort onderzoek te repliceren, zegt hoogleraar sociale psychologie en ASPO-voorzitter Daniël Wigboldus (Radboud Universiteit). “Begrippen die in de Verenigde Staten met ouderdom worden geassocieerd – de staat Florida bijvoorbeeld – zijn niet een-op-een te vertalen in Europese begrippen, in dit geval Belgische. Daar komt bij dat ons beeld van ouderen sinds 1996 behoorlijk is veranderd; we denken nu veel meer aan dynamische gepensioneerden, om maar iets te noemen.”

Het gaat er volgens Wigboldus dan ook vooral om ‘conceptuele replicatie’, ofwel een nieuw onderzoek dat de werking van een idee bevestigt: “In Nederland heeft Ap Dijksterhuis het onderzoek van Bargh feitelijk gerepliceerd met zijn onderzoek waaruit blijkt dat mensen die met professorale begrippen worden geconfronteerd, hun Triviant-vragen beter maken.” Volgens Ellemers is zulk onderzoek ook heel geschikt om te kijken of een bevinding meer algemeen geldig is. Van Lange noemt als voorbeeld het onderzoek naar de vraag of omstanders ingrijpen als een onbekende op straat het slachtoffer wordt van een misdrijf. “We doen al 40 jaar onderzoek naar de bystander, die heel vaak niet ingrijpt. Dat onderzoek heeft onlangs een nieuwe wending gekregen, namelijk dat in sommige situaties mensen juist wel gaan ingrijpen als er veel omstanders zijn.”

Maar conceptuele replicatie wekt juist weer het wantrouwen van de methodologen in de psychologie, die vinden: om te bewijzen dat A waar is, repliceer je niet B maar A. Doe je dat niet, dan bied je weer ruimte aan de verificatiebias, schreef de Britse neurowetenschapper Chris Chambers (Cardiff University) op zijn blog. Als twee studies met verschillende methoden op dezelfde conclusie uitkomen, kun je zeggen dat de tweede de eerste bevestigt. Maar als de uitkomsten verschillend zijn, kun je dan zeggen dat de tweede de eerste heeft weerlegd? “Niet in een miljoen jaar”, schreef Chambers, want de onderzoeksmethoden waren immers anders. Maar juist de mogelijkheid tot falsifiëren geeft een theorie zijn kracht.

De Israëlische Nobelprijswinnaar Daniel Kahneman (economie, 2002) is geschrokken van de ‘replicatiecrisis’ en van de fraudezaken rond Stapel en diens vakgenoten Dirk Smeesters en Lawrence Sanna, die zich ook met priming bezighielden. In een open brief aan psychologen die zich met priming bezighouden schreef hij onlangs: “Jullie vakgebied is nu het mikpunt van twijfels over de integriteit van psychologisch onderzoek.”

Kahneman gelooft zelf in het fenomeen priming, maar er zijn ook wetenschappers die sceptisch zijn over het bestaan van het verschijnsel. De experimenten zijn zo subtiel en complex dat ze grote onderzoeksvaardigheden vereisen en dus kan een replicatie makkelijk mislukken. Door die mislukte replicaties, en door de fraude, is de groep sceptici flink gegroeid. Psychologen moeten de twijfels volgens Kahneman wegnemen door zorgvuldig opgezette replicatie in onafhankelijke labs.

Om die reden dringt Kahneman aan op een grondige replicatie, uitgevoerd door vijf vooraanstaande laboratoria. Die labs vormen een ‘ketting van madeliefjes’, waarbij lab B onderzoek van lab A repliceert, lab C het onderzoek van lab B enzovoorts. Al het onderzoek zou gedaan moeten worden met veel proefpersonen en op video moeten worden vastgelegd. Zo kunnen de resultaten robuust worden gemaakt en worden de labs een reddingsboei van madeliefjes.

“Zo samen onderzoek doen, waarbij je allemaal precies dezelfde methodes hanteert, is een interessant idee”, zegt Ellemers. “Een belangrijk middel tot theoretische vooruitgang in de wetenschap”, vindt Van Lange: “Methodologische afstemming is vaak een eerste voorwaarde voor repliceerbaarheid, en juist dat is belangrijk als er concurrerende theorieën of hypothesen zijn – het levert een eerlijke en waarschijnlijk zo objectief mogelijke toets voor een wetenschappelijk punt ter discussie.”

Hebben Nederlandse onderzoeksgroepen zich al aangemeld voor de ‘ketting van madeliefjes’? ASPO-voorzitter Wigboldus is daar niets van bekend: “Wel zijn bij het Reproducibility Project nogal wat Nederlandse onderzoekers betrokken.” Overigens vindt Wigboldus het zeker zo belangrijk dat Nederlandse wetenschappers hun eigen werk zo goed mogelijk doen: “Bijvoorbeeld dat onderzoekers zelf hun onderzoek al proberen te repliceren voor ze publiceren.”

Zachte angel

De opstellers van de notitie Sharpening Scientific Policy After Stapel brengen ook het eigen huis op orde. Zo willen zij het publiceren van niet-significante resultaten “niet alleen laten afhangen van de editors van journals”, zegt Ellemers. “Daarom hebben we als hoogleraren gekeken naar wat we zelf kunnen doen.” Hun oog is daarbij gevallen op de vele promotieonderzoeken die jonge onderzoekers onder hun leiding doen aan de landelijke onderzoeksschool voor psychologie, het Kurt Lewin Instituut (KLI).

Zo wordt het voortaan ook mogelijk om in een proefschrift hoofdstukken met niet-significante bevindingen op te nemen. “Dus ook als een aio in drie onderzoeken niet-significante resultaten vindt”, zegt Van Lange. Ellemers: “Een promovendus moet laten zien zelfstandig onderzoek te kunnen doen”, zegt Ellemers. “Publiceren van significante resultaten is mooi, maar een promotie hangt daar niet van af. De druk van ‘het moet significant zijn’ willen we er af halen.” Van Lange: “Die druk is de angel van het systeem. Die moeten we zachter maken.”

Mail tips over fraude en slordigheid naar wetenschapsfraude@nrc.nl

    • Karel Berkhout