Overheersende toevalstreffers

Iedere maand verschijnen er bijna honderdduizend nieuwe medische publicaties. Het merendeel van die publicaties is fout. Dat beweert althans de Amerikaans-Griekse hoogleraar en methodoloog Ioannidis, maar veel wetenschappers delen zijn zorgen. ‘Fout’ betekent niet dat de cijfers niet kloppen, het slaat op de manier waarop de onderzoekers hun conclusies trekken uit de zee van getallen die bij onderzoek wordt geproduceerd. Onderzoekers trekken die conclusies met behulp van statistische methoden, met kansrekening dus, en die kansrekening is het probleem.

De meest gebruikte statistische methode is de t-toets, en de oorsprong daarvan ligt in het jaar 1904. Plaats van handeling: de Guinness bierfabrieken in Dublin. Guinness wilde het brouwen van bier wetenschappelijk aanpakken en nam daarom de jonge chemicus en wiskundige William Gosset in dienst. Gosset concentreerde zich op de biologische variatie van brouwerijgrondstoffen, zoals gerst en hop. Het gehalte aan harsen in de hop bepaalt de smaak en de stabiliteit van het bier; te veel hars maakt het bier ondrinkbaar, en te weinig ook. Elk hopbloemetje heeft echter een ander harsgehalte, en als Guinness een wagonlading hop wou kopen konden ze niet ieder bloemetje daarin doormeten. Gosset vond een manier om te berekenen hoeveel hopbloemetjes je moest analyseren om met een bepaalde zekerheid vast te stellen hoeveel hars de hele wagonlading hop bevatte. Als hij meldde: ‘Er is een kans van meer dan 5% dat deze partij gemiddeld te weinig hars bevat’, ging de koop niet door.

Vanuit de industrie verbreidde de statistische benadering zich naar het medisch onderzoek. Dat knapte daar zeer van op, want de statistische kansrekening levert objectieve normen om vast te stellen of de uitkomst van een onderzoek echt is of een toevalstreffer. Stel bijvoorbeeld dat een arts een nieuwe neusspray tegen hooikoorts uittest bij 10 patiënten, en dat die inderdaad minder snotteren als ze de spray gebruiken. Dat is nog geen bewijs dat het middel werkt, want hooikoorts komt en gaat, en het kan zijn dat sommige patiënten toevallig net in deze periode minder last hadden. Met een statistische toets kan de arts uit de gegevens van zijn 10 patiënten berekenen hoe groot het effect van de spray kan zijn op de totale wereldbevolking van hooikoortslijders. Hoe groot is het risico dat de spray bij hen gemiddeld niets zou doen, en dat het effect bij de patiënten stom toeval was? Als dat risico groter is dan 5% heet het effect ‘niet significant’ en is de werkzaamheid van de spray niet bewezen.

Biologie, psychologie, milieukunde en gezondheidswetenschappen zouden zonder statistiek hulpeloos zijn, en ook economie en sociologie leunen er zwaar op. Geneesmiddelen worden toegelaten, gevaarlijke stoffen verboden en verdachten tot gevangenisstraf veroordeeld op grond van statistische berekeningen. Die berekeningen zijn sinds Gosset en zijn hopbloemetjes complexer geworden, en ze zijn alleen nog uitvoerbaar met behulp van computerprogramma’s. Die computerprogramma’s kunnen snel en veel rekenen, en dat is meteen de reden waarom professor Ioannidis denkt dat er zoveel publicaties zijn met foute conclusies. De klassieke statistiek hield zich bezig met beperkte aantallen cijfers; als iemand in een schiettent acht van de tien keer in de roos schiet kun je statistisch precies voorspellen wat zijn kans is om bij de volgende 100 schoten 80 of meer keer raak te schieten. Het moderne onderzoek lijkt echter soms op een virtuele schiettent met een automatisch geweer dat er in alle richtingen op los knalt. Allicht dat sommige schoten dan de roos raken. Dat zijn de ‘significante’ uitkomsten die worden gepubliceerd, maar er is geen enkele reden om aan te nemen dat het automatische geweer bij het eerstvolgende schot weer raak schiet.

Veel toetsen veroorzaakt dus een inflatie van het aantal significante uitkomsten. Er bestaat een perverse prikkel die onderzoekers aanzet om zoveel mogelijk significante resultaten bij elkaar te vissen. Meer significanties betekent namelijk meer publicaties, en dus meer kans om je te profileren en om geld voor nieuw onderzoek te verwerven. De markt voor onderzoeksgelden is bikkelhard, en het vermogen van een onderzoeker om fondsen te werven bepaalt zijn kansen op een carrière, een inkomen, een hypotheek en balletlessen voor zijn dochter. Vandaar dat er heel veel statistische berekeningen worden gedaan. Soms leidt dat tot echte ontdekkingen, maar meestal blijkt er geen ‘significant’ effect meer uit te komen als andere onderzoekers de studie herhalen. Het effect is dan niet reproduceerbaar, en de oorspronkelijke publicatie was een toevalstreffer die beter snel kan worden vergeten.

De stroom van significanties leidt tot een stroom van persberichten over nieuwe geneeswijzen of over nieuw ontdekte oorzaken van vetzucht en kanker. Als anderen het onderzoek een paar jaar later herhalen wordt het effect meestal niet meer gevonden, maar dat is geen leuk nieuwtje en dus komt het zelden in de media. Vaak verschijnt het zelfs niet in de wetenschappelijke tijdschriften, want ook die zitten niet te popelen om negatieve studies. Het effect van koffie op de gezondheid is een voorbeeld. Dertig jaar geleden ontstond grote commotie over een verband tussen koffie drinken en alvleesklierkanker, maar dit effect bleek niet reproduceerbaar, net als andere nadelige effecten van koffie. Een ander voorbeeld is aspartaam en epilepsie: de enkele studie die iets vond kwam breeduit in de media, vervolgens werden die studies herhaald en bleek er geen verband te zijn. Het moderne DNA-onderzoek produceert zelfs zoveel ‘significante’ verbanden tussen genen en ziekte dat de betere wetenschappelijke tijdschriften ze alleen publiceren als ze zijn gereproduceerd in een nieuw onderzoek bij een andere bevolking.

De inflatie van het begrip ‘significant’ is een ernstige zaak, die de effectiviteit en geloofwaardigheid van het medisch onderzoek ondermijnt. Gelukkig heeft de medische researchgemeenschap een groot zelfreinigend vermogen. Er gaan dingen mis, die worden aan de kaak gesteld, en dan komt er een oplossing. In het verleden zijn ooit proefpersonen in medische experimenten misleid en beschadigd; als antwoord daarop hebben we nu medisch-ethische toetsingscommissies die tevoren goedkeuring moeten geven aan iedere medisch-wetenschappelijke handeling en die zelfs iedere tekst beoordelen waarmee onderzoekers proefpersonen willen werven. Een andere misstand was het wegmoffelen van studies door de farmaceutische industrie als de uitkomsten haar slecht uitkwamen; als antwoord daarop bestaat sinds kort de verplichting om elke studie bij mensen openbaar te maken in een register van medische experimenten zodra de werving van proefpersonen begint. Ook de financiële relaties tussen artsen en de farmaceutische industrie worden steeds meer openbaar gemaakt.

Voor de schijnsignificanties komt er dus hopelijk ook wel een oplossing. Maar zover is het nog niet, en daarom is het goed dat u weet hoe weinig ‘statistisch significant’ betekent.

Voor voetnoten zie mkatan.nl