Probiotica-rel draait om statistiek

De beruchte probioticastudie uit Utrecht waarbij onverwacht veel mensen stierven had toch eerder moeten worden gestopt. Zo hebben statistici nagerekend.

hester van santen

Scherpe kritiek klinkt nu op de methodiek van het veelbesproken Utrechtse probiotica-onderzoek. Prof. Richard Gill, hoogleraar statistiek aan de Universiteit Leiden rekende een deel van de analyse na en concludeert: „Ik denk dat ze niet goed hebben nagedacht.” En dr. Hubert Schouten, auteur van het handboek Klinische statistiek en specialist op het gebied van precies de methode die de Utrechters gebruikten, beaamt dit. „Richard Gill heeft gelijk.”

Maar hoogleraar chirurgie prof. Hein Gooszen van het UMC Utrecht, de onderzoeksleider van de studie, wijst de kritiek van de twee statistici af: „Ik waag het te betwijfelen. Het is hun mening tegenover de onze.”

De statistici reageren op het onderzoek onder leiding van het Utrechtse academische ziekenhuis, waarin patiënten met een acute alvleesklierontsteking een preparaat met heilzaam geachte melkzuurbacteriën toegediend kregen. De bedoeling was dat die ‘probiotica’ complicaties van de ontsteking konden voorkomen. Maar het pakte anders uit: door het preparaat, dat via een sonde in de darm werd toegediend, overleden patiënten. De studie werd in februari gepubliceerd in het vooraanstaande medische tijdschrift The Lancet.

In de studie werd, zoals in medisch onderzoek met ernstig zieken gepast, een tussentijdse toets uitgevoerd. Deze interim-analyse is bedoeld om al tijdens het onderzoek te zien of de probiotica hetzij werken, hetzij dat dat in de studie niet kan worden aangetoond.

Zo’n snelle conclusie kan twee doelen dienen: óf patiënten wordt niet langer een nuttig medicijn onthouden, of er hoeven niet meer ernstig zieken met nutteloos onderzoek mee te doen dan noodzakelijk. Het wiskundig gereedschap dat daarvoor gebruikt wordt, heet een stopregel: hij bepaalt wanneer gestopt moet worden.

Op de manier waarop die stopregel toegepast is, hebben de statistici kritiek. Prof. Richard Gill, hoogleraar statistiek aan de Universiteit Leiden, deed op eigen initiatief de interimanalyse over, met cijfers van die analyse die het UMC Utrecht aan de pers uitdeelde.

Gill: „De studie had gestopt moeten worden, omdat er geen kans meer was om aan te tonen dat de probiotica effectief waren.” De omgekeerde uitkomst was wel mogelijk. Gill: „Om het bot te zeggen: de studie ging door, omdat er nog een goede kans was om aan te tonen dat probiotica best schadelijk zijn.” De onderzoekers zagen dat over het hoofd doordat ze een andere versie van de stopregel toepasten.

Toen de interimanalyse gedaan werd, was de behandeling van 184 van de 298 patiënten begonnen. Richard Gill hield gisteren aan de wiskundefaculteit van de Universiteit Utrecht een lezing over zijn visie, onder de titel Careless statistics costs lives: Slordige statistiek kost levens.

Statistici wijzen al decennia op de matige kwaliteit van statistische analyse in medische tijdschriften. Vaak wordt er slecht uitgelegd wat er gedaan is, of wordt niet de test gebruikt die bij de gegevens past. In The American Statistician analyseerden Oostenrijkse statistici artikelen die in 2004 in The New England Journal of Medicine verschenen, het meest invloedrijke medisch-wetenschappelijke tijdschrift. Bij een op zes publicaties was een ‘onjuiste of suboptimale’ statistische test toegepast.

De twee critici wijzen nog op andere, kleinere onregelmatigheden. Schouten: „ Ik vind het protocol onduidelijk.” Gill: „Ze zitten een regel verkeerd in de tabel. Dat is niet zo erg, maar het laat zien dat deze mensen niet snappen wat ze aan het doen zijn.”

Wat verwarring in dit geval in de hand werkt, is dat de onderzoekers van het UMC Utrecht een stopregel hanteerden die nauwelijks gebruikt wordt. Hij werd echter omarmd door dr. Hubert Schouten, universitair hoofddocent statistiek aan de Universiteit Maastricht. De bewerkte hem voor zijn handboek Klinische Statistiek (1999). Schouten geeft twee versies van de regel: een ‘eenzijdige’, en een ‘tweezijdige’. Eenzijdig is een statistische standaardterm voor tests die uitmaken of behandeling A beter is dan B – of slechter, maar je test maar één optie tegelijk. Bij tweezijdig toetsen gaat het er enkel om of A anders is dan B.

„Onze analyse en het besluit om de studie voort te zetten zijn primair gebaseerd op een eenzijdige test”, zegt onderzoeksleider Hein Gooszen. Uit de eenzijdige toets bleek dat de groep met de minste zieken en doden (uiteindelijk niet de probioticagroep) ook aan de eindstreep de beste kon blijken.

Gooszen: „En daarna hebben we het nog eens tweezijdig herhaald, omdat we ons niet blind wilden staren.” Die tweezijdige toets, zegt Hubert Schouten, is niet geschikt voor een studie met een experimenteel middel en een nepmiddel. „Die is bedoeld voor twee gelijkwaardige therapieën.” Dat staat niet in Schoutens boek. „Ik had het beter moeten uitleggen.”

De goede manier, zegt Gill, is om de eenzijdige toets nog eens andersom te doen. Dan was opgevallen dat de groep met de meeste zieken en doden (uiteindelijk bleken dat de patiënten die probiotica hadden gekregen) de achterstand niet meer kon ombuigen naar een voorsprong.

Gooszen werpt tegen dat de epidemiologen die de statistiek gedaan hebben „mensen zijn met lange lijsten Lancet-publicaties”, en dat zij ervan overtuigd zijn dat de juiste methode gevolgd is. Bovendien had Gill voor zijn berekeningen niet de cijfers moeten gebruiken die aan de pers zijn verstrekt, omdat die onbruikbaar waren. Schouten zegt: „Achteraf is het makkelijk praten. En meestal wórdt er niet eens een interimanalyse gedaan. Maar we moeten wel nagaan wat we hiervan kunnen leren.”