Hoe groter de studie hoe groter de kans op nonsens

Tjarko van der Pol

De media zijn nog maar net uitgeschreven over de controversiële genetische studie naar seksuele oriëntatie of daar is al de volgende die stof doet opwaaien. Afgelopen week publiceerde het gerenommeerde tijdschrift Nature Communications een studie naar de genetische invloed op inkomen. Het was opnieuw een groot onderzoek met data van de Britse UK Biobank, dit keer 285.000 deelnemers, en ook dit keer weinig verrassende resultaten. Dna heeft een minieme invloed op inkomensverschillen.

De grote belangstelling voor megagrote studies volg ik met verbazing. Studies met tien- of honderdduizenden deelnemers als de UK Biobank, het Groningse LifeLines en Rotterdamse Generation R zijn waardevolle databronnen en hun omvang is een zegen voor de statistische analyse. Maar dat is geen garantie voor betekenisvolle resultaten. Grote studies lijken geloofwaardiger, maar zijn dat niet vanzelfsprekend.

Elk onderzoek is slechts een simpele benadering van een complexe werkelijkheid. Het is een steekproef waarmee onderzoekers uitspraken doen over de populatie waaruit de steekproef getrokken is. De versimpeling kan leiden tot toevallige en systematische fouten. Een grotere studie verkleint de kans op toevallige fouten, maar juist niet op systematische.

Statistische precisie

Toevallige fouten doen zich letterlijk toevallig voor. Je vindt ze in de ene steekproef maar niet in een andere. Zo kunnen in een willekeurige steekproef van tien volwassenen vrouwen toevallig een hoger inkomen hebben dan mannen, terwijl dit meestal omgekeerd is. Hoe groter de steekproef, hoe groter de statistische precisie en dus hoe kleiner de kans op toevallige resultaten die niet overeenkomen met de werkelijkheid.

Als je een studie doet, moet je zorgen dat je voldoende deelnemers hebt om de kans op toevallige bevindingen te beperken, maar veel groter hoeft eigenlijk niet. Te grote studies hebben het ‘nadeel’ van te veel statistische precisie: ze vinden heel kleine verschillen tussen groepen die ook weer toevallige verschillen kunnen zijn. Gevonden in de ene grote steekproef, maar niet in een andere.

Systematische fouten worden veroorzaakt door de manier waarop de data zijn verzameld. Neem inkomen: wat is inkomen? Alleen salaris of inclusief bonussen en aandelen? Bruto of netto? Is het wat iemand zegt dat hij verdient of wat hij werkelijk verdient? Systematische fouten doen zich voor als de onderzoeksdata niet zijn wat je als onderzoeker had gewenst. En dat is bij megastudies eerder regel dan uitzondering.

Testjes en scans

Megastudies zijn opgezet om veel ziekten te kunnen bestuderen. Ze zijn toegankelijk voor alle onderzoekers en bevatten data over een breed scala aan risicofactoren, biomarkers en symptomen, inclusief dna van alle deelnemers. Omdat deelnemers niet dagenlang naar een onderzoekscentrum komen voor testjes en scans, zijn er bij de studieopzet keuzes gemaakt: welke variabelen hebben de hoogste prioriteit en hoe kunnen die zo efficiënt mogelijk worden gemeten? Veel data worden verzameld met vragenlijsten en inzage in medische dossiers. Praktisch, maar minder betrouwbaar. De data in grote studies zijn daarom vaak oppervlakkig en minder nauwkeurig, geschikt voor veel onderzoeksvragen, maar niet alle.

Een andere bron van systematische fouten is een niet-representatieve steekproef. Het is bekend dat de 500.000 deelnemers van de UK Biobank welgestelder en gezonder zijn dan de Britse bevolking. De data zijn daarmee niet geschikt voor het bepalen van prevalenties en risico’s. Vragen als hoeveel mensen hebben type-2-diabetes of hoe groot is de kans dat mensen dat voor hun 70ste krijgen, kunnen met deze data niet beantwoord worden. De data geven dan een vertekend beeld.

Wanneer je als onderzoeker gebruikmaakt van data die al verzameld zijn, zul je moeten roeien met de riemen die je hebt. Bij de genetische studies naar inkomen en seksuele voorkeur was dat behelpen.

Enorme verschillen

De vragenlijst van de UK Biobank had maar één vraag over inkomen: wat is het totale jaarinkomen in uw huishouden voor aftrek van belastingen? De studie onderzocht dus niet de relatie tussen het dna van de deelnemer en zijn of haar inkomen, maar het huishoudinkomen. Ongeacht door hoeveel huisgenoten dit was verdiend en zonder correctie voor de enorme regionale inkomensverschillen.

Dit fenomeen van grote stappen gauw thuis doet zich vaker voor. Bij gebrek aan data over seksuele oriëntatie in de UK Biobank bedachten de onderzoekers van die studie ‘niet-heteroseksualiteit’: deelnemers die ooit seks hadden met een persoon van hetzelfde geslacht werden beschouwd als ‘niet-heteroseksueel’. Ook al was die ervaring eens maar nooit meer.

Dankzij de grote statistische precisie vonden de onderzoekers genen met minuscule invloed op huishoudinkomen en ‘niet-heteroseksualiteit’. Fijn, maar daar waren ze niet naar op zoek. De vraag of die genen ook iemands individuele inkomen en seksuele voorkeur beïnvloeden blijft onbeantwoord. En daar zit mijn verbazing. De statistische analyses zullen ongetwijfeld kloppen, maar hebben we wat opgestoken?

Je moet als onderzoeker vaak roeien met de riemen die je hebt. Maar je moet soms ook durven besluiten om niet te roeien. Om te beginnen wanneer je niet garant kunt staan voor een juiste en betekenisvolle interpretatie van de onderzoeksresultaten.