Waakhonden van de wetenschap bijten niet

Wetenschappers die manuscripten van collega’s controleren, geven de wetenschap een kwaliteitsstempel. Maar deze peer reviewers zijn overbelast en niet altijd objectief. Dat leidt tot een stroom publicaties vol zwakke statistiek en fouten. Uitgevers en onderzoekers zoeken naarstig naar oplossingen.

Patiënten als wetenschappelijk controleur van medisch onderzoek. Is dat wanhoop, of een gouden greep? Het is in ieder geval een opzienbarend experiment bij het vooraanstaande, medisch-wetenschappelijk tijdschrift The British Medical Journal (The BMJ). „Ingezonden artikelen sturen we ter controle en beoordeling niet alleen toe aan een klein groepje experts, maar ook aan patiënten”, zegt Wim Weber. Hij is redacteur bij het tijdschrift en werkt daarnaast één dag in de week als neuroloog in het Maastricht UMC.

Normaal worden wetenschappelijke artikelen gecontroleerd door vakgenoten, peers. Maar The BMJ bekijkt nu of patiënten ook aan de beoordeling, de zogeheten peer review, kunnen bijdragen. Als ware het vakgenoten. „Patiënten hebben misschien zinnige opmerkingen om de kwaliteit van een artikel te verbeteren”, zegt hij. Uitkomsten van het experiment, dat een klein jaar geleden is gestart, zijn er volgens Weber nog niet.

Dat wetenschappers zoveel vertrouwen in peer review hebben, is gebaseerd op geloof.

Het illustreert wel de fase waarin de wetenschappelijke tijdschriften zich bevinden: druk experimenteren met allerlei alternatieven voor de nu meest voorkomende vorm van peer review. Want op de manier waarop het nu vaak gaat, is steeds meer kritiek. Van wetenschappers en ook tijdschriftredacteuren.

Lees ook de reconstructie over een gebrekkig artikel in Nature kon worden gepubliceerd Hoe zwak onderzoek in een toptijdschrift terecht kwam

Het gaat niet om zomaar iets. Peer review wordt gezien als cruciaal voor de geloofwaardigheid van de wetenschap. Het geldt als een keurmerk voor kwaliteit. Vakgenoten die elkaar kritisch, maar eerlijk en objectief de maat nemen.

Maar eerlijk en objectief zijn ze niet altijd. Er spelen belangen en vooroordelen. Reviewers in veel disciplines zijn ook overbelast geraakt. En nemen dan niet voldoende tijd meer om de stukken goed te lezen. Het heeft tot een duistere erfenis geleid: een enorme hoeveelheid gepubliceerd onderzoek met zwakke statistiek, of ronduit fouten. De overbelaste reviewers halen ze er maar mondjesmaat uit.

Daarom zijn wetenschappelijke uitgevers druk bezig het proces te verbeteren. Bijvoorbeeld door de namen van de reviewers openbaar te maken.

Het peer review-systeem dat nu het meest wordt gebruikt, raakte in het midden van de vorige eeuw in zwang. Het gaat als volgt. Een tijdschriftredacteur maakt een eerste selectie uit de vele ingezonden artikelen, en elk van de geselecteerde manuscripten gaat vervolgens naar een beperkt aantal experts – meestal tussen de 1 en 3. Die beoordelen en bekritiseren het. De oordelen gaan, geanonimiseerd, naar de auteurs. Op basis van die oordelen besluit de redacteur het artikel alsnog af te wijzen, of te publiceren – eventueel na aanpassingen of aanvullend onderzoek door de auteurs.

1. De problemen

„Het peer review-systeem werkt van geen kanten”, zegt Richard Smith. Hij was tussen 1991 en 2004 redacteur bij The BMJ, en kent het systeem dus van binnenuit. „In ieder geval wat betreft de biomedische wetenschappen”, zegt Smith. De ervaringen die hij in die jaren opdeed hebben hem een van de felste criticasters gemaakt van de traditionele peer review. Het is duur, inefficiënt, en al helemaal niet objectief. „Dat wetenschappers er zoveel vertrouwen in hebben, is gebaseerd op geloof. Het is een belachelijk systeem.”

Slordigheden

Iemand die al jaren onderzoek doet aan het peer review systeem, is socioloog Lutz Bornmann van de Duitse Max Planck Gesellschaft, een organisatie met 80 onderzoeksinstituten. Hij is milder dan Smith, maar ook hij erkent dat het systeem zwakheden heeft. Een van de gevoeligste punten volgens hem, is dat reviewers vaak fouten over het hoofd zien. Dat laat een onderzoek van uitgerekend Richard Smith bijvoorbeeld zien. Hij voerde het in 2008 uit met collega’s van The BMJ. Ze legden zo’n 500 reviewers artikelen voor waarin met opzet negen grote en vijf kleine methodologische en statistische fouten waren gezet. Van de negen grote fouten werden er gemiddeld slechts 3 ontdekt – een kwart van de reviewers vond er 1 of geen.

De reden is simpel, volgens Bornmann. De druk op reviewer is toegenomen. Het aantal gepubliceerde artikelen is harder gegroeid dan het aantal reviewers. „Ze zijn overbelast en nemen niet voldoende tijd om stukken zorgvuldig door te lezen.” Daarbij speelt ook dat het werk is waar ze niks voor terug krijgen. Het komt niet op het cv.

De overbelasting van reviewers is een groot probleem, zegt ook Philippe Terheggen. Hij is managing director van de tijdschriftentak bij Elsevier, ’s werelds grootste wetenschappelijk uitgever. „Dit kan zo niet langer”, zegt hij. Terheggen koppelt die overbelasting onder meer aan de opkomst van de wetenschap in opkomende economie-en. „Chinese auteurs dienen twee keer zoveel manuscripten bij ons in als auteurs uit de Verenigde Staten”, zegt hij. Maar het aantal goede reviewers blijft achter. Dat heeft deels met de cultuur te maken, zegt Terheggen. „In China zal een jonge onderzoeker zich niet zo snel kritisch uitlaten over een senior.” Het gevolg is dat Chinese manuscripten op het bord van westerse reviewers terecht komen.

Publicatiegekte

De druk op reviewers heeft ook met een andere, brede ontwikkeling in de wetenschap te maken: de carrière van onderzoekers is de afgelopen decennia steeds meer bepaald door publicaties, bij voorkeur in toptijdschriften, en steeds minder door bijdragen aan onderwijs of maatschappij – ook twee officiële taken van de universiteit. Dat is begin deze eeuw versterkt door de invoering van bibliometrische maatstaven. Voor onderzoekers is dat de h-index, die meet hoe vaak iemands artikelen worden geciteerd. Tijdschriften hebben iets soortgelijks, de impact factor. Ondanks dat deze maatstaven manipuleerbaar zijn, worden ze door subsidiegevers en universiteitsbestuurders uitbundig gebruikt.

De publicatiegekte heeft tot allerlei perverse prikkels en vreemde praktijken geleid. Onderzoekers smeren bijvoorbeeld hun resultaten over zo veel mogelijk publicaties uit. Of onderzoekers bieden een artikel eerst aan een tijdschrift met een hoge impact factor aan. Als die het afwijst, gaan ze een treetje lager. Dat kan zo drie, vier, vijf keer doorgaan. Steeds moet een artikel opnieuw beoordeeld worden, door nieuwe reviewers. Want de eerdere oordelen worden doorgaans niet gedeeld.

Er is meer. Tijdschriften op hun beurt zitten in een race om een hoge impact factor. Mede daardoor hebben ze een voorkeur ontwikkeld voor opvallend en positief nieuws. Want dat zorgt voor citaties, en die bepalen de impact factor. Gaandeweg is de belangstelling voor onderzoek met negatieve uitkomst, of voor herhaald onderzoek, afgenomen. Want wat is daar nieuw of spectaculair aan?

Die trend heeft bij onderzoekers weer een zoektocht naar statistische significantie aangejaagd. Ook al is die zwak, of afwezig.

De combinatie van publicatiedruk, nadruk op positieve uitkomsten, en wellicht ook de slordigheid van onderzoekers om alle data vast te leggen, hebben tot die eerder genoemde berg aan zwakke studies geleid.

Het is funest voor de geloofwaardigheid van de wetenschap.

Vriendjespolitiek

En dan is Richard Smith nog steeds niet klaar met zijn kritiek. Het klassieke peer review-systeem is ook gevoelig voor vooroordelen, zegt hij. Sommige manuscripten komen er makkelijker doorheen dan andere. Manuscripten van mannen bijvoorbeeld, of van gerenommeerde instituten. Maar Bornmann trekt dat in twijfel. Onderzoek naar vooroordelen op basis van geslacht laat een grote variatie in uitkomst zien. Soms komt het er wel uit, andere keren niet. Het is geen eenduidig beeld.

Smith wijst op nog iets anders. Dat de beoordelingen van reviewers anoniem zijn, werkt strategieën in de hand die het eigen belang versterken. Zeker in een omgeving waar de carrière afhangt van publicaties. Een reviewer kan uitgesproken negatief zijn met de bedoeling een publicatie tegen te houden, omdat hij of zij net aan hetzelfde onderwerp werkt en met de eer wil gaan strijken. Of het oordeel is negatief omdat het de door de reviewer aangehangen theorie ondermijnt. Volgens Bornmann is dit lastig te onderzoeken.

Het aantal gepubliceerde artikelen is harder gegroeid dan het aantal reviewers.

Ook lastig vast te stellen is hoe wetenschappers zelf denken over peer review. Er zijn wel enquêtes uitgevoerd, bijvoorbeeld door het Publishing Research Consortium, een consortium van uitgevers. Nadeel daarvan is dat slechts een klein deel van de benaderden eraan mee deed – in 2015 ging het om een kleine 3 procent, ruim 2.000 personen. Uit die enquête (uitgevoerd in 2007, 2009 en 2015) komt naar voren dat ongeveer tweederde tevreden is over het peer review-systeem en dat driekwart vindt dat het de kwaliteit van een manuscript verbetert. Maar ook is een groeiend deel niet langer tegen een complete revisie van het peer review-systeem – in 2007 was het 35 procent, in 2015 nog 26 procent.

Een teken voor een naderende omslag is ook dat de internationale Commission on Publication Ethics (COPE) drie jaar geleden richtlijnen voor ‘ethisch reviewen’ heeft opgesteld. En binnenkort worden ze weer vernieuwd en aangevuld.

2. de oplossingen

Intussen zijn tijdschriften volop aan het experimenteren. Aangewakkerd door de mogelijkheden van het internet. Er komen nieuwe tijdschriften, met nieuwe peer review-modellen. Bestaande tijdschriften passen hun model aan. Ze gaan bijvoorbeeld over op open peer review: de namen van de reviewers worden bekend gemaakt, en mogelijk ook hun review-rapporten. The BMJ doet dat al jaren. Hoewel niet alle reviewers ermee akkoord gaan, zegt redacteur Wim Weber. „Tien procent van de reviewers die ik benader, wijst om die reden af.” Weber zegt trouwens dat hij bij voorkeur jonge onderzoekers vraagt om te reviewen. „Die doen het vaak serieuzer dan gevestigde hoogleraren.”

Volgens Terheggen van Elsevier is het stadium van experimenteren al gepasseerd. Het concern is volop bezig het peer review-proces te verbeteren, geholpen door nieuwe technologie. Alle 1.750 tijdschriften wordt de komende drie jaar verzocht over te stappen op open peer review. „We gaan het niet verplichten”, zegt Terheggen. Redacteuren en reviewers krijgen verder hulp van software om manuscripten te controleren op plagiaat, op statistische relevantie, en op beeldmanipulatie. Ook komt er een index die weergeeft hoe vaak en voor welke tijdschriften iemand heeft gereviewed, met kwaliteitsbeoordelingen van tijdschriftredacteuren. Het concern heeft inmiddels al een systeem waarbij tijdschriften aan elkaar review-rapporten kunnen doorsturen, en een systeem waarbij originele onderzoeksdata aan publicaties worden gekoppeld. „Alles gaat richting openheid”, zegt Terheggen. Ook Springer Nature, het moederbedrijf van de Nature-tijdschriften, laat weten op allerlei manieren te experimenteren met nieuwe vormen van peer review. Zo loopt bij Nature een proef om de namen van reviewers openbaar te maken. Nature Communications doet het ook met de rapporten van de reviewers.

Het past bij het programma dat de Europese Commissie afgelopen april aankondigde: onderzoeksdata moeten vindbaar, herbruikbaar, en onderling te koppelen zijn.

Richard Smith blijft kritisch. Hij voorziet dat tijdschriften op den duur verdwijnen. Ze werken niet meer als selectie- en doorgeefluik van kennis, nu er jaarlijks meer dan 1,5 miljoen artikelen verschijnen – met een toename van zo’n 5 procent per jaar. Ze werken ook niet omdat de peer review compleet faalt. Wat er voor in de plaats komt, weet hij niet.

Terheggen van Elsevier daarentegen gelooft dat de rol van tijdschriften, als bindmiddel tussen data, software en lezers, alleen maar groter zal worden.