BRIEVEN

Klinische trials 2

Stephanie Weinreich, Charlotte Vrinten en Martina Cornel van VU medisch centrum schrijven in hun brief ‘Klinische trials’ (Wetenschapsbijlage, 12 mei) dat ze zich geen zorgen maken over het feit dat veel klinische trials minder dan 100 deelnemers beogen. Indien er tussen het beoogde en het gerealiseerde aantal deelnemers verschillen ontstaan, stellen ze, moet men daarmee integer omgaan. Dit staat buiten kijf. Blijft echter de vraag of men bij de opzet van een onderzoek het aantal deelnemers ruim genoeg gepland heeft om de gestelde doelen te bereiken. Onderzoekers zijn daar vaak wat optimistisch over. Laat ik dit aan de hand van een drietal voorbeelden toelichten.

Neem de eenvoudigste klassieke toets, de toets van Student voor één steekproef. De algemeen aanvaarde criteria van de statisticus Jacob Cohen ter bepaling van de steekproefomvang levert, voor een middelmatig effect en een redelijke kans dit effect te ontdekken, een steekproefomvang van 55 elementen (deelnemers) op. Echter bij deze richtlijnen is Cohen uitgegaan van een normaal verdeelde populatie. Volgens een uitspraak van dezelfde Cohen is een normaal verdeelde populatie echter even zeldzaam als een eenhoorn.

Omdat, zelfs bij kleine afwijkingen van normaliteit, de kans om een bestaand effect te ontdekken aanzienlijk lager kan uitvallen dan de, bij de bepaling van de steekproefomvang, opgegeven kans is het verstandig een aanzienlijk grotere steekproefomvang aan te houden. (Aan het eind van zijn loopbaan pleitte Cohen zelf voor een zo groot mogelijke steekproef.)

Veel leerboeken geven terecht geen uitsluitsel over welke omvang dan wel voldoet. De steekproefomvang is immers afhankelijk van de populatieverdeling. Een enkel leerboek stelt een steekproefomvang van minstens 100 als eis.

Uit een simulatiestudie is gebleken dat soms pas bij een steekproefomvang van 160 elementen de benadering van de toetsingsgrootheid door de Studentverdeling voldoet.

Gaat het om het schatten van percentages dan zijn, voor kleine steekproefomvang, de betrouwbaarheidsintervallen onwerkbaar groot.

Stel: een cosmeticafabrikant wil het conserveringsmiddel in zijn producten vervangen door een ander. Van dit nieuwe middel is nog weinig bekend, vooral wat betreft allergische reacties.

Hij besluit 100 proefpersonen zijn nachtcrème, waarin dit middel verwerkt is, te laten gebruiken.

Geen van de proefpersonen meldt een allergische reactie. Kan hij nu veilig het nieuwe conserveringsmiddel in zijn producten verwerken? Nee.

Met een betrouwbaarheid van 95 procent kan men stellen dat het percentage mensen dat voor het nieuwe middel allergisch is ligt tussen de 0 procent en 3 procent. Hij mag dus niet verbaasd zijn dat, als hij op grond van dit experiment besluit het conserveringsmiddel te gaan gebruiken, blijkt dat in de populatie gebruiksters 2 procent dus 2 op de 100 gebruiksters van de nachtcrème niet ontkreukt maar bepukkeld ontwaakt.

Bij een aantal van 1.000 proefpersonen ligt met een betrouwbaarheid van 95 procent dit percentage tussen de 0 en 0,3 procent. Mijns inziens is dit interval, in geval van miljoenen gebruiksters en ernstige bijwerkingen, nog veel te groot.

Vooral kleine verschillen in percentages in de buurt van de 50 procent zijn moeilijk te achterhalen.

Een voorbeeld is het referendum over echtscheiding in Ierland in 1995. De opinieonderzoeken gaven geen uitsluitsel. Toen de uitslag bekend was, bleek waarom. Er waren 818.852 voorstemmers en 809.728 tegenstemmers een verschil van 9.124 stemmen. Had men dit verschil met een redelijke kans willen voorspellen dan had men voor zo’n enquête 90.703 kiesgerechtigden moeten benaderen.

Dit laatste voorbeeld is extreem maar men moet soms overdrijven om zijn punt te maken.

D. Neeleman

Emeritus hoogleraar statistiek, Hoogland