Veel nieuwe geneesmiddelen werken niet. Hoe komt dat?

Geneeskunde

Veel nieuwe geneesmiddelen maken niet waar wat ze beloven. Hoe kan dat? Door wensdenken, statistisch gezichtsbedrog en een poortwachter die soms een oogje toeknijpt.

Foto ISTOCK/Beeldbewerking NRC

Een nieuw medicijn heet al gauw een wondermiddel. Zo kan het dat een oncoloog op tv betoogt dat slimme medicijnen van kanker een chronische ziekte zullen maken. Dat patiënten snelle goedkeuring én vergoeding eisen van veelbelovende middelen. Dat farmaceutische fabrikanten beweren een nog effectievere therapie te hebben.

„Onze kijk op geneesmiddelen wordt beheerst door de illusie van het nieuwe, van het opwindende, van het steeds weer betere”, zegt de Belgische statisticus Jan Bogaerts. Statistici als hij weten dat al die nieuwe middelen voor bijvoorbeeld kanker niet allemaal geweldig zijn. „Statistici vergelijken geregeld nieuwe geneesmiddelen met oude in meta-analyses, waarbij we alle studies over vele jaren meenemen. Dan blijkt over het geheel genomen de werking gelijk. Voor elk groot succesverhaal, waarbij we de overleving van patiënten verbeteren, is er een medicijn waarbij de overleving slechter was.”

Dat betekent dat er geneesmiddelen op de markt komen, die niet doen wat ze beloven. Zo bekeken onderzoekers onlangs in een meta-analyse (The BMJ, 2017) de bijna vijftig kankermedicijnen die tussen 2009 en 2013 in Europa op de markt kwamen voor bijna zeventig kankers. In slechts de helft van de gevallen bleken de geneesmiddelen te zorgen voor een langere overleving of hogere kwaliteit van leven.

Dat is opvallend omdat alle geneesmiddelen worden beoordeeld op werkzaamheid (en veiligheid) door de poortwachter van de Europese geneesmiddelenmarkt, de EMA. Die baseert zich op klinische studies, waarin de werking van de middelen op patiënten is getest en statistisch getoetst. Achteraf bezien hebben dus nogal wat studies aan de kankermiddelen heilzame effecten laten zien die in werkelijkheid niet bestaan of veel kleiner zijn dan gedacht: zogeheten valspositieve resultaten.

Dit soort statistisch gezichtsbedrog, waarover verderop veel meer, is er in het medicijnenonderzoek „altijd geweest”, zegt Bogaerts. Bogaerts is hoofd methodologie bij de EORTC, een internationale non-profitorganisatie, die klinisch en laboratoriumonderzoek naar kanker stimuleert en coördineert door heel Europa. Hij is ook statisticus bij de wetenschappelijke adviescommissie oncologie van de EMA.

Nieuw is wel, zegt Bogaerts, dat de EMA vaker de toelatingseisen versoepelt door de maatschappelijke wens om veelbelovende geneesmiddelen snel bij patiënten te krijgen. Waar in het verleden standaard twee grote medicijnstudies – met controlegroepen – nodig waren, komen nu geregeld medicijnen op de markt met een kleine medicijnstudie, zonder een controlegroep. „Daardoor is de kans dat we een medicijn toelaten op valspositieve resultaten fors toegenomen”, zegt Bogaerts.

Wat zijn de risico’s van deze toekomstige spooksuccessen? „Dat weten we niet”, zegt Bogaerts met een zucht. „Maar elk middel heeft wel bijwerkingen. Ook financieel.” Nieuwe geneesmiddelen kosten soms tonnen per jaar per patiënt. De uitgaven aan (kanker)geneesmiddelen zijn de afgelopen jaren zo gestegen, dat ze inmiddels onderwerp zijn van maatschappelijk en politiek debat.

In het toelatingsexamen voor nieuwe geneesmiddelen speelt statistiek een sleutelrol. Daarom geeft Bogaerts op verzoek hierover graag een minicollege in zijn kantoor in Brussel. De wiskundige schiet geregeld in de lach, terwijl hij met pen punten en cirkels op een vel papier krabbelt om iets uit te leggen als: „In de statistiek kun je van elke mug een olifant maken.” En om de valkuilen te tonen:

  1. Valkuil: De eenarmige studie

  2. Onderzoek met mensen bestaat uit drie fasen. In zogeheten fase-1 en fase-2-studies worden veiligheid en doseringen getest op gezonde mensen, of op patiënten, bij wie dan ook de werking al exploratief wordt onderzocht. Dit gebeurt zonder een controlegroep; vandaar dat deze studies ook wel ‘eenarmig’ worden genoemd. In de fase-3-studies wordt de werkzaamheid van een middel getest op (vaak) grote groep patiënten. Dit gebeurt met een controlegroep, waarvan de deelnemers de standaardbehandeling of een placebo krijgen; vandaar dat deze studies ook wel ‘tweearmig’ worden genoemd.

    Fase-3-studies zijn de kroonjuwelen van het medicijnonderzoek en worden doorgaans aangeduid als RCT, ofwel randomized controlled trial. Loting bepaalt of een patiënt een placebo of het geneesmiddel krijgt – randomized – en idealiter gebeurt dit dubbelblind: noch de onderzoeker noch de proefpersoon weet wie wat krijgt. Hoe groter het aantal proefpersonen is, hoe kleiner de kans op statistisch gezichtsbedrog. Zo heeft de EMA in het verleden voor bepaald medicijnonderzoek meer proefpersonen geëist, nadat een zeldzame bijwerking in een kleinere groep proefpersonen was gemist.

    In de praktijk verliest het kroonjuweel wel wat glans. Zo worden veel fase-3-studies niet blind uitgevoerd, maar weet iedereen wie het nieuwe middel krijgt en wie de standaardbehandeling of placebo: de open label-studie. „Dan zie je bij onderzoekers toch de neiging om de controle-arm niet al te sterk te maken om in de eerste groep een goed resultaat te halen”, zegt Bogaerts. De patiënten in de controlegroep krijgen dan net wat lagere doses of niet de beste standaardbehandeling.

    Het kan nog erger, verzucht Bogaerts: „In sommige open label-studies kunnen de patiënten in de controlegroep alsnog het nieuwe middel krijgen als de ziekte zou verergeren. Op een congres vertelden patiënten me dat ze daarom zo snel mogelijk een verergering van de ziekte wilden.” Als patiënten zo hun hoop op een nieuwe middel vestigen, kan dat de studie beïnvloeden.

    De robuustheid van het onderzoek kan – ironisch genoeg – ondergraven worden door de voortgang van het biomedisch onderzoek. Door de snel groeiende kennis over de genetica ontrafelen arts-onderzoekers vooral bij kanker diepliggende mechanismen en krijgen snel het idee dat een nieuw middel zou kunnen werken. De artsen geven het middel in vroeg stadium en houden de onderzoeksgegevens bij, zonder controlegroep, ofwel eenarmig.

    Deze eenarmige fase-2-studies zijn steeds vaker genoeg om een middel goedgekeurd te krijgen, signaleert Bogaerts: „Terwijl de EMA vroeger vaker twee tweearmige fase-3-studies eiste.” Zo is een op de acht kankermiddelen in de bovengenoemde BMJ-studie op basis van een eenarmige studie toegelaten. Hetzelfde geldt bijvoorbeeld voor nivolumab, een kostbaar geneesmiddel voor longkanker dat in Nederland pas na heftig debat werd vergoed.

    „We hebben toch heel vaak gezien dat iets dat er in het begin heel goed uitziet, in fase-3 verschrikkelijk teleurstelt” . Zo bleek een experimenteel alzheimer-medicijn dat bij kleine studies in een vroeg stadium leek te werken, niets te doen toen het bij grote groepen werd onderzocht. „Was dit goedgekeurd in fase-2, dan hadden we nooit geweten dat die pillen niet werken”, zegt Bogaerts.

  3. Valkuil: Surrogaat-eindpunten

  4. Pas na jaren weet je echt of een geneesmiddel werkt, bijvoorbeeld als je precies weet hoe lang patiënten na behandeling nog hebben geleefd. Deze overlevingsduur is een harde maatstaf voor de beoordeling van een middel, een zogeheten ‘hard eindpunt’. Maar omdat tijd kostbaar is – er sterven dagelijks mensen aan kanker – is afwachten geen optie. Om die reden kijken onderzoekers naar zogeheten ‘surrogaat-eindpunten’.

    „Een effect op het surrogaateindpunt moet ook een effect hebben op het finale eindpunt, dus overleving”, zegt Bogaerts, maar in de praktijk is dat niet altijd het geval. Zo is een veel gebruikt surrogaateindpunt bij kanker de periode waarin een tumor niet groeit. Deze zogeheten ‘progressievrije’ overleving leidt vaak helemaal niet tot een (veel) langer leven voor de kankerpatiënt. Onbekend is waarom dat zo is.

    Zelfs zeer sterk ogende surrogaat-eindpunten zijn vaak geen goede voorspellers, toont een voorbeeld van Bogaerts. Om de operatieve verwijdering van de tumor bij borstkanker beter te laten verlopen, krijgt de patiënt soms voorafgaan aan de operatie een paar ronden chemotherapie. Vervolgens wordt in de verwijderde tumor gezocht naar levende kankercellen; zijn die afwezig of zeer beperkt, dan is dat een complete pathological response, uitgedrukt in een CPR-score. „Geweldig goed nieuws voor de patiënt”, zegt Bogaerts. „Het is dan ook logisch om te denken dat als een middel een hogere CPR-score heeft dan een ander, dat de patiënten die dat middel krijgen, ook langer zullen leven.” Bogaerts pauzeert even: „Dat zou zo moeten zijn, maar, dat is niet zo. Een aantal vergelijkende studies toont dat de overleving in de beide groepen patiënten die een verschillende CPR-score hadden exact hetzelfde is.” Niemand weet waarom.

    Het zoeken van en toelaten op surrogaat-eindpunten „leidt tot opbod”, zegt Bogaerts. Fabrikanten ontwikkelen vaak geneesmiddelen die het effect van een verwant, al bestaand middel moeten versterken. „Als je meer geeft, kun je op surrogaat-eindpunten altijd wel wat bijwinnen. Het systeem maakt dat we meer en meer middelen gaan geven.”

  5. Valkuil: Significantie

    Dat ‘bijwinnen op eindpunten’ is een goeddeels statistische exercitie, waarbij onderzoekers kijken naar ‘significante’ verschillen tussen degenen die het middel wel en die het middel niet hebben gekregen. Die significantie wordt bepaald met zogeheten p-waarden. „Dáár zit een ander probleem. De hele wetenschappelijke wereld is eraan verslaafd geraakt. Als je een lage p-waarde hebt, is je hypothese waar, is het idee. Maar dat is een misvatting.”

    In medicijnenonderzoek wordt doorgaans een limiet voor de p-waarde van 0,05 gebruikt. „Dat is in mensentaal: een kans van een op twintig. Als ik volledig willekeurige data neem, verdeel in twee groepen, per groep naar 100 (medische) variabelen kijk, dan heb ik gemiddeld 5 significante p-waarden. Als ik mijn research wil pushen dan ga ik die vijf naar voren schuiven, belangrijk maken.”

  6. Valkuil: Subpopulaties

    Dit soort statistische acrobatiek duikt steeds meer op bij het vinden van zogeheten subpopulaties. Ook hier is de bron de wetenschappelijke vooruitgang. Er wordt steeds meer bekend over genetische verschillen tussen mensen onderling en wie mogelijk wel of niet baat heeft bij een middel. De droom is dan ook dat we straks voor elk individu kunnen bepalen wie welke therapie moet krijgen: personalized medicine.

    Hoewel dit ideaal voor de meeste toepassingen nog ver weg is, kijken onderzoekers wel al gretig in een groep proefpersonen of bij een bepaalde subgroep (zeg mannen, of mensen ouder dan veertig) de ziekte sneller teruggedrongen wordt dan bij een andere groep (zeg vrouwen, of jonger dan veertig). Als ze wat vinden, wordt een middel ook wel toegelaten voor een subpopulatie.

    „Maar hier speelt weer dit probleem”, zegt Bogaerts en hij klopt op het papiertje met uitleg over de p-waarden. „Onderzoekers doen een fase-3-studie in een grote groep en de resultaten zijn teleurstellend. Dan gaat men kijken in subgroepen, dat zijn er soms vijftig tot honderd, hè. Denk dan weer even aan de kans van een op twintig. Daar word ik heel achterdochtig van. Dat kan een artefact zijn. Dan vraag ik de onderzoekers: doe het opnieuw in die subgroep. De ene keer blijkt er niets meer te vinden. Een andere keer vindt men precies hetzelfde en in dat geval zeg ik: ok, behandel maar.”

Oplossingen

Bogaerts discussieert geregeld met de toezichthouders van onder meer de EMA over de valkuilen: „Zij hebben dezelfde zorgen als ik en het is moeilijk voor ze om het juiste te doen.” Als je steeds te streng bent, loop je een reëel risico dat je patiënten werkzame middelen onthoudt.

Dat neemt niet weg dat Bogaerts wel mogelijkheden ziet om de registratiestudies te verbeteren. Al gebruikte methoden zijn herhaling van (statistisch) onderzoek, het vooraf vastleggen van de (surrogaat)eindpunten in een protocol en het standariseren van deze eindpunten voor bepaalde aandoeningen. En het recente voorstel van de Amerikaanse epidemioloog John Ioannidis om de p-waarden aan te scherpen tot 0,005 (JAMA, 10 april 2018)? Een goed idee voor genetisch onderzoek, vindt Bogaerts: „We weten dat veel van de resultaten valse positieven zijn waar men heeft gezocht tot er iets gevonden werd.” Maar hij zou juist een minder strenge norm willen – bijvoorbeeld 0,1 – voor een ziekte „waar geen enkele hoop is.”

Verder zouden geneesmiddelen ná marktintroductie – de zogeheten fase-4 – beter gevolgd moeten worden „om te zien of een product het echt goed doet in de werkelijke wereld.” Dat gebeurt nu wel, maar door fabrikanten die de resultaten zelf bijhouden en die hun middelen zelden onderling vergelijken. Bogaerts zou dat liever laten doen door onafhankelijke instituten, die met centrale databanken patiënten kunnen volgen. „We zouden graag studies zien waarbij een middel van fabrikant a wordt vergeleken met fabrikant b”, zegt Bogaerts. „We hebben in de geneeskunde nood aan een model als dat van Testaankoop in België of de Consumentenbond in Nederland. Dat je net zoals auto’s en wasmachines concurrerende geneesmiddelen test.”

Voor dit artikel is onder meer gebruik gemaakt van het artikel ‘We bewandelen een gevaarlijk pad’ in het vakblad Medische Oncologie (november 2017).
    • Karel Berkhout