Probiotica-rel draait nu om de stopregel

De beruchte Utrechtse probiotica-studie waarbij veel mensen stierven, had eerder moeten worden gestopt.

Dat zeggen twee statistici die het hebben nagerekend.

In het ‘probiotica-onderzoek’ waarbij 33 ernstig zieke patiënten overleden door een experimenteel middel, zijn fouten gemaakt in de statistische bewerking. Daardoor werd het onderzoek ten onrechte doorgezet. Als het was afgebroken, zouden minder mensen overleden zijn. Dat zeggen hoogleraar statistiek Richard Gill (Leiden) en medisch statisticus Hubert Schouten (Maastricht).

De leider van het onderzoek, hoogleraar chirurgie Hein Gooszen van het UMC Utrecht, zegt in reactie op de kritiek: „Ik waag het te betwijfelen. Het is hun mening tegenover de onze.”

In het onderzoek, in februari dit jaar gepubliceerd in het vooraanstaande medische tijdschrift The Lancet, kregen driehonderd patiënten met een acute alvleesklierontsteking een experimenteel preparaat met ‘probiotische’ (heilzaam geachte melkzuurbacteriën) toegediend. De bedoeling was dat die ‘probiotica’ complicaties van de ontsteking konden voorkomen. Maar het pakte anders uit: uiteindelijk overleden meer mensen die probiotica kregen toegediend dan mensen die een nepmiddel hadden gekregen. De patiënten werden tussen 2004 en 2007 in vijftien Nederlandse ziekenhuizen behandeld. Het preparaat werd via een sonde in de darm toegediend.

Aanvankelijk oogstten de onderzoekers lof omdat voor het eerst duidelijk was aangetoond dat probiotische bacteriën niet altijd onschadelijk zijn, althans niet bij ernstig zieke patiënten.

Nu klinkt echter scherpe kritiek. Statisticus Richard Gill rekende een deel van de analyse na en concludeert: „Ik denk dat ze niet goed hebben nagedacht.” En Hubert Schouten, auteur van het handboek Klinische statistiek en specialist op het gebied van precies de methode die de Utrechters gebruikten, beaamt dit. „Richard Gill heeft gelijk.”

In de studie werd een tussentijdse toets uitgevoerd. Deze interim-analyse is bedoeld om al tijdens het onderzoek te zien of de probiotica hetzij werken, hetzij dat dat in de studie niet kan worden aangetoond.

Zo’n snelle conclusie kan twee doelen dienen: óf patiënten wordt niet langer een nuttig medicijn onthouden, óf er hoeven niet meer ernstig zieken met nutteloos onderzoek mee te doen dan noodzakelijk. Het wiskundig gereedschap dat daarvoor gebruikt wordt, heet een stopregel: hij bepaalt wanneer gestopt moet worden. Op de manier waarop die stopregel toegepast is, hebben de statistici kritiek. Gill deed op eigen initiatief de interim-analyse over, met cijfers van die analyse die het UMC Utrecht aan de pers uitdeelde.

Gill: „De studie had gestopt moeten worden, omdat er geen kans meer was om aan te tonen dat de probiotica effectief waren.” De omgekeerde uitkomst was wel mogelijk. Gill: „Om het bot te zeggen: de studie ging door, omdat er nog een goede kans was om aan te tonen dat probiotica best schadelijk zijn.” De onderzoekers zagen dat over het hoofd doordat ze een andere versie van de stopregel toepasten.

Toen de interim-analyse gedaan werd, was de behandeling van 184 van de 298 patiënten begonnen. Richard Gill hield deze week aan de wiskundefaculteit van de Universiteit Utrecht een lezing over zijn visie, onder de titel Careless statistics costs lives: Slordige statistiek kost levens.

De onderzoekers van het UMC Utrecht hanteerden bij het onderzoek een stopregel die nauwelijks gebruikt wordt. Hij werd echter omarmd door Hubert Schouten, universitair hoofddocent statistiek aan de Universiteit Maastricht. Hij geeft twee versies van de regel: een ‘eenzijdige’, en een ‘tweezijdige’. Eenzijdig is een statistische standaardterm voor tests die uitmaken of behandeling A beter is dan B – of slechter, maar je test maar één optie tegelijk. Bij tweezijdig toetsen gaat het er enkel om of A anders is dan B.

„Onze analyse en het besluit om de studie voort te zetten zijn primair gebaseerd op een eenzijdige test”, zegt onderzoeksleider Gooszen. Uit de eenzijdige toets bleek dat de groep met de minste zieken en doden (uiteindelijk niet de probioticagroep) ook aan de eindstreep de beste kon blijken.

Gooszen: „En daarna hebben we het nog eens tweezijdig herhaald, omdat we ons niet blind wilden staren.” Die tweezijdige toets, zegt Hubert Schouten, is niet geschikt voor een studie met een experimenteel middel en een nepmiddel. „Die is bedoeld voor twee gelijkwaardige therapieën.” Dat staat niet in Schoutens boek. „Ik had het beter moeten uitleggen.” De goede manier, zegt Gill, is om de eenzijdige toets nog eens andersom te doen. Dan was opgevallen dat de groep met de meeste zieken en doden de achterstand niet meer kon ombuigen naar een voorsprong.

Gooszen werpt tegen dat de epidemiologen die de statistiek gedaan hebben „mensen zijn met lange lijsten Lancet-publicaties”, en dat zij ervan overtuigd zijn dat de juiste methode gevolgd is. Schouten zegt: „Achteraf is het makkelijk praten. En meestal wórdt er niet eens een interim-analyse gedaan. Maar we moeten wel nagaan wat we hiervan kunnen leren.”

Lees een (Engelstalig) artikel van Richard Gill over het onderzoek via nrcnext.nl/links