Test op ziekte vaak onbetrouwbaar

Van tests die ziekte of dood voorspellen is vaak onbekend hoe goed ze zijn. Een nieuwe checklist toetst de publicaties over die tests. Het is een eerste begin, vinden de opstellers.

De Amerikaanse arts Virginia Apgar bepaalt de Apgarscore van een baby. Die score is een van de oudste voorspellende tests in de geneeskunde. De foto is uit 1959.
De Amerikaanse arts Virginia Apgar bepaalt de Apgarscore van een baby. Die score is een van de oudste voorspellende tests in de geneeskunde. De foto is uit 1959. Foto March of Dimes

Niemand ontkomt meer aan tests die ziekte of dood voorspellen. Het begint al in de eerste levensminuut. De snel afgenomen Apgarscore voorspelt hoe een kindje het op de korte termijn ‘doet’.

De Apgarscore is 60 jaar oud en was in de geneeskunde een van de eerste voorspelmodellen. De afgelopen jaren is hun aantal explosief toegenomen. Inmiddels verschijnen ze razendsnel op het internet en in apps op tablets en smartphones. Ze voorspellen, als je nog gezond bent, bijvoorbeeld of je over zeven jaar een chronische ziekte hebt.

„Zo’n voorspelmodel is in feite hetzelfde als een weersvoorspelling, alleen voorspellen ze hier ziekte, complicaties of dood. Er zijn er inmiddels tienduizenden en of het klopt wat ze voorspellen is vaak onduidelijk.” Dat zegt hoogleraar klinische epidemiologie Carl Moons van het Julius Centrum van het UMC Utrecht. Met een dertigtal collega’s, vooral van Britse, Nederlandse en Noord-Amerikaanse universiteiten, en een aantal redacteuren van wetenschappelijke tijdschriften, publiceerde hij gisteren een checklist van 22 regels waaraan een wetenschappelijke publicatie over zo’n test minimaal moet voldoen. De checklist die het onderzoeksconsortium maakte en alle achtergronddetails ervan staan op de website www.tripod-statement.org.

De artikelen over de checklist verschenen – uitzonderlijk – tegelijkertijd in elf medisch-wetenschappelijke tijdschriften. Het is het resultaat van vier jaar overleg over het terugbrengen van aanvankelijk 129 criteria naar 22. De auteurs vinden een heldere publicatie de eerste stap om te kunnen zien of een voorspellende test betrouwbaar is.

Moons: „Zo’n voorspelmodel kan iemand op een zondagmiddag op basis van een gegevensbestand in elkaar draaien. Die voorspelmodellen verschijnen dan vaak lukraak op internet of in apps zonder dat iemand van tevoren beoordeelt of de kansberekening van het model klopt. Terwijl artsen steeds vaker beslissingen nemen op basis van dergelijke kansmodellen of mensen hun leefstijl erdoor aanpassen.”

Moons vindt dat voorspellende modellen en tests die iedereen kan gebruiken eigenlijk, net als medicijnen, van te voren scherp beoordeeld moet worden op hun werking.

„Zo’n beoordeling is op dit moment te hoog gegrepen, daarom zijn we begonnen met publicatierichtlijnen. Dan kan iemand die een voorspellende test wil doen in de oorspronkelijke publicatie beter nagaan hoe en of hij werkt. En iemand die erover denkt zo’n test te maken ziet direct aan welke eisen je minimaal moet voldoen. Hopelijk verbetert dat het resultaat al.”

Er bestaan, zegt Moons, beslist ook goede medische voorspelmodellen. Die Apgarscore bijvoorbeeld. Dat bleek weliswaar pas decennia nadat de Amerikaanse kinderarts Virginia Apgar hem in 1952 bedacht. „Apgar maakte een hele goede test op basis van haar ervaring en gutfeeling”, zegt Moons.

Dat kan nu niet meer. Vooral niet bij de tests die nu in de mode zijn en de kans op een ziekte over tien jaar voorspellen. Daarvoor moeten van een flinke groep mensen de kenmerken die van belang zijn voor die ziekte gemeten zijn.

Dat kan kennis over hun rook-, drink, zon- en eetgedrag en over ziekte in hun familie zijn, voor een test die de kans op kanker of hart- en vaatziekten voorspelt. Of gegevens over bloeddruk, hartslag, ademhaling, bewustzijn en een hele rij bloedwaarden van ernstig zieke patiënten om te voorspellen of het zin heeft iemand op de intensive care (IC) op te nemen, of te laten liggen.

Die voorspellende test voor IC-opname – de APACHE-score – is berucht onder epidemiologen. Hij wordt massaal gebruikt, zegt Moons, maar hoe het rekenmodel precies is ontwikkeld, hoe er is getest en hoe het werkt is nooit helder opgeschreven. De artsen voeren de patiëntgegevens in en er komt een antwoord uit, maar wat er in het rekenmodel exact gebeurt is onduidelijk. Moons: „Die black boxes, daar worden wij in de geneeskunde vaak kriegel van. We willen begrijpen hoe een kansvoorspelling tot stand komt.” Hij nuanceert meteen: „Bij medische voorspelmodellen vindt iedereen dat heel belangrijk, maar weersvoorspellingsmodellen zijn meestal ook een grote black box en daar hoor je weinig klachten over.”

Nog meer omstreden is FRAX, een test die de kans op een botbreuk door osteoporose voorspelt. Moons: „Men denkt dat daar belangenverstrengeling plaatsvond.”

FRAX is een door de Wereldgezondheidsraad (WHO) ondersteund voorspellend model. Begin 2014 beschreven Finse onderzoekers in het Canadian Medical Association Journal (18 februari) hoe John Kanis, hoogleraar-directeur van het WHO-centrum voor botstofwisselingsziekten in Sheffield, het door hem ontwikkelde FRAX consequent verdedigt en ondersteunt in het tijdschrift Osteoporosis International, waarvan hij zelf hoofdredacteur is. De Finse critici schrijven dat het model wellicht is ontwikkeld om het voorschrijven van osteoporosemedicijnen te stimuleren.

Moons: „In vakkringen is FRAX een grote aandachtstrekker, maar inmiddels zijn er duizenden voorspelmodellen. Er gebeurt ook erg veel dubbel. Er zijn bijvoorbeeld meer dan honderd modellen die de kans op hart- en vaatziekten bij diabetes voorspellen. Nieuwe zijn echt niet nodig. Betrouwbaarheid, daar is behoefte aan. Het zou ideaal zijn wanneer een instantie gaat bepalen of de voorspelmodellen op internet betrouwbaar zijn. Maar wie gaat dat doen?”