Opinie

Waarom is slecht onderzoek zo hardnekkig?

Column Statistici wijzen al decennialang op de lage kwaliteit van veel wetenschappelijk onderzoek, schrijft Cecile Janssens. Er komt geen einde aan.

Cecile Janssens

De coronacrisis bracht het afgelopen jaar het beste en slechtste van de wetenschap voor het voetlicht. We zagen de razendsnelle ontwikkeling van vaccins naast veel covidonderzoek van gênant lage kwaliteit. Beide ontwikkelingen zijn niet van gisteren. De vaccins zijn het resultaat van jarenlange investeringen in (basaal) wetenschappelijk onderzoek en ook de lage kwaliteit is helaas een aloud probleem.

Methodologen en statistici wijzen al decennialang op de lage kwaliteit van veel wetenschappelijk onderzoek. In 1994 luidde de Britse statisticus wijlen Douglas Altman de noodklok met een prangend betoog, getiteld The scandal of poor medical research: We need less research, better research, and research done for the right reasons.

Wetenschappelijk onderzoek is slecht wanneer onderzoekers, bewust of onbewust, verkeerde keuzes maken in de opzet, uitvoering of analyse van hun studie. Er is niet per se iets mis met de studie, maar de studie kan geen goed antwoord geven op de onderzoeksvraag. En dat is de valkuil: slecht onderzoek valt vaak niet meteen op. Wie de tekortkomingen niet herkent ziet vast een goede studie. In mijn werk passeerden daarvan deze week twee voorbeelden.

In mijn vak bestaat een index die wordt berekend uit de percentages van twee groepen. Stel dat 26 procent van de mannen en 16 procent van de vrouwen rookt, wat is dan het percentage rokers in de totale groep? Als de groep bestaat uit evenveel mannen als vrouwen dan is het percentage 21 procent (50% × 26% + 50% × 16%), bestaat de groep voor 60 procent uit mannen, dan is het 22 procent (60% × 26% + 40% × 16%).

Volgens de logica van de index is het totaal 42 procent. De index telt de twee percentages op ongeacht de verhouding tussen het aantal mannen en vrouwen. Volgens statistici is de index niet alleen onjuist, maar ook misleidend. De index geeft vaker statistisch significante resultaten dan de gangbare indicatoren en daarmee lijkt het alsof je onderzoek toch wat oplevert, ook al vond je verder niks.

Mateloos populair

Het vooruitzicht van statistische significantie werkt op sommige onderzoekers als een magneet en de index is dan ook mateloos populair. Het wetenschappelijk artikel over de index is al meer dan 5.000 keer geciteerd, ook door toonaangevende onderzoekers in toonaangevende tijdschriften. Daar kan ik als peerreviewer niet tegenop. Als ik auteurs wijs op de kritiek, vind ik meestal geen gehoor. Ze antwoorden dat het een veelgebruikte index is en daarmee neemt de tijdschriftredactie genoegen. Het artikel gaat de 10.000 citaties zo wel halen.

Het andere voorbeeld betreft onderzoek waarbij gebruik wordt gemaakt van data uit de UK Biobank-studie. Met gegevens van 500.000 Britten is de UK Biobank een goudmijn, maar de data zijn niet geschikt voor alle onderzoeksvragen. De studie is namelijk geen doorsnee van de Britse bevolking. De deelnemers zijn gezonder, hoger opgeleid en welvarender. De onderzoeksleiders schreven daarom enkele jaren geleden dat de data niet gebruikt moeten worden voor het berekenen van prevalenties en risico’s.

Ook dat bleek tegen dovemansoren gezegd. Onderzoekers berekenen gewoon prevalenties en risico’s en schrijven aan het eind van hun artikel dat de studie niet representatief is. Ze waarschuwen dat de resultaten daarom voorzichtig geïnterpreteerd moeten worden, maar ze leggen nooit uit hoe voorzichtig. De lezer mag zelf bepalen of de resultaten überhaupt te interpreteren zijn. We mogen hopen dat ze daarvoor de kennis in huis hebben.

Doorgeschoten competitie

De oorzaak voor slecht onderzoek en het in stand houden ervan wordt vaak gezocht in de enorme werkdruk en doorgeschoten wetenschappelijke competitie. Veel onderzoekers zijn zelf verantwoordelijk voor de financiering van hun salaris en knopen de eindjes aan elkaar met te veel onderbetaalde taken en projecten. De overvolle agenda en de non-stop ratrace om projectsubsidies maken dat intensieve begeleiding van jonge onderzoekers er vaak bij inschiet. En zo kan het gebeuren dat je als gerespecteerd hoogleraar hoofdauteur bent van een artikel dat pronkt met de statistisch significante bevindingen van een misleidende index.

Als wetenschapper kom je gewoon weg met slecht onderzoek. Je krijgt het gepubliceerd, je wordt geciteerd, en de publicaties tellen gewoon mee op je cv. De peerreview houdt publicatie van slecht onderzoek niet tegen. En waar frauduleuze artikelen worden ingetrokken, blijven publicaties over slecht onderzoek circuleren. Wie ziet nog het verschil tussen onderzoek wat goed is en onderzoek wat goed lijkt?

Ik vroeg mij tijdens dit schrijven af of ik zelf slecht onderzoek heb gepubliceerd. Ik weet van wat matige artikelen, en wat saaie, maar niet van slecht onderzoek. Als er wel slecht onderzoek tussen zit, dan ben ik mij daar niet van bewust. En dan ga ik daarmee door totdat het schip strandt. Slecht onderzoek stopt niet vanzelf. Je kunt niet weten wat je niet weet. Slecht onderzoek moet gestopt worden.

Het is tijd om de grens te trekken.

Cecile Janssens is hoogleraar translationele epidemiologie aan Emory University in Atlanta.