Balletjeballetje als wetenschap

Een wetenschappelijke experiment leidt bijna nooit direct tot een definitief antwoord. Pas wanneer er door meer onderzoeksgroepen meer experimenten zijn verricht, ontstaat er langzamerhand een duidelijker beeld. Iedereen die vanaf dat moment nog een afwijkende waarde meet, zal dat in eerste instantie toeschrijven aan experimentele fouten.

Een eerstejaarsstudent natuurkunde die de constante van Planck moet bepalen en een factor twee te hoog uitkomt, gaat niet zitten wachten op een telefoontje van het Zweedse Nobelprijscomité.

Twintig jaar geleden wees de Amerikaanse bioloog Robert May in Nature op de overeenkomst tussen wetenschap en een klassiek kansberekeningsexperiment. In een vaas worden een rode en een witte bal gedaan. Willekeurig wordt er een bal uitgehaald, bekeken en weer teruggelegd. Tegelijk wordt aan de vaas een extra bal van dezelfde kleur toegevoegd. Als dit een groot aantal malen is gedaan zal duidelijk worden dat de fractie witte ballen in de vaas naar een vaste waarde toegaat, na aanvankelijk vrij wild te hebben gevarieerd.

Een soortgelijk experimenteergedrag kenmerkt veel wetenschappelijk onderzoek. Het grappige is alleen dat het vaas-experiment geen vaste uitkomst heeft. Herhaling ervan levert in het algemeen een volledig andere waarde op, hoewel deze even nauwkeurig bepaald lijkt als de vorige. In principe zijn namelijk alle waarden tussen 0 en 1 mogelijk, iets waarvoor geringe variaties tijdens de eerste paar trekkingen verantwoordelijk zijn. Volgens May is de conclusie van dit experiment daarom van groot belang voor veel wetenschappelijk onderzoek. Hij citeert in dit verband de Amerikaanse bioloog Joel Cohen, die eerder in een artikel met de titel Irreproducible Results and the Breeding of Pigs tot een gelijksoortige conclusie kwam. Zo zou het helemaal geen zin hebben om te gaan zoeken naar een verklaring voor ontegenzeggelijk waargenomen verschillen in bijvoorbeeld moeder-kind interacties, of in de lengte van leeuwenmanen in verschillende populaties, of in de verdeling van soorten over op het eerste gezicht identieke eilanden. Deze zouden wel eens het uiteindelijke gevolg van kunnen zijn van 'random forces applying equally to all mother-child pairs'.

Ziekte van Alzheimer

Zelfs het naar beste eer en geweten toepassen van de juiste statistische technieken kan tot verkeerde conclusies leiden. Om aan het licht te brengen welke factoren in iemands leven kunnen bijdragen aan het optreden van de ziekte van Alzheimer, verzamelt een arts een groep dementen en een even grote controlegroep. Vervolgens onderzoekt hij beide groepen aan de hand van een lange lijst met zo'n honderd factoren als gezinsachtergrond, godsdienst enzovoorts. Van elke variabele test hij de zogenaamde nul-hypothese: bestaat er een verband met het voorkomen van vroegtijdige dementie?

Dergelijke tests maken geen absolute uitspraak mogelijk, maar geven aan dat met een zekere graad van waarschijnlijkheid van bijvoorbeeld 95 procent een verband kan worden aangetoond. Maar fouten blijven altijd mogelijk. In het bovengenoemde voorbeeld zal immers in minimaal zo'n vijf procent van de gevallen een verband gevonden worden, of dat er nu ook echt is of niet. Statistici noemen dit een type-I-error en dienen zich er bij de analyse van onderzoeksresultaten terdege van bewust te zijn. Dat is niets nieuws.

Maar begin februari vroeg Bill Amos van de universiteit van Cambridge in Nature de aandacht voor een soortgelijk probleem. Hij wees op de complicerende rol die type-I-errors kunnen spelen wanneer er sprake is van onderzoeken in verschillende laboratoria. Wanneer namelijk twintig groepen een bepaald verband proberen aan te tonen, en allen uitgaan van een 95 procent-waarschijnlijkheidsdrempel, dan zal gemiddeld één van die groepen dat verband ook werkelijk vinden, opnieuw of dat nu reëel is of niet. Zonder de wetenschap dat er veel méér negatieve resultaten waren, zal er wellicht tot publicatie worden overgegaan. En vanuit het standpunt van de onderzoeker bekeken is dat misschien ook wel terecht. Heeft hij immers niet op volkomen correcte wijze de analyses verricht? Nog erger wordt het wanneer de gepubliceerde resultaten aanleiding vormen voor verder onderzoek. Als de resultaten maar interessant genoeg zijn, zullen er voldoende vervolgexperimenten worden uitgevoerd, waarvan er een aantal om exact dezelfde reden een bevestiging zullen geven. In alle andere gevallen zullen de onderzoekers geneigd zijn hun negatieve resultaat toe te schrijven aan experimentele fouten, of aan onhandigheid van de student die het experiment uitvoerde.

Lottotrekking

Amos noemt dit global type-I-errors en maakt een vergelijking met de lottotrekking. De kans dat iemand alle zes getallen van de 41 goed heeft aangekruist, is astronomisch klein, maar als er maar voldoende mensen meedoen, dan vinden zelfs uiterst onwaarschijnlijke gebeurtenissen toch plaats. Hoe meer wetenschappers een hypothese toetsen, hoe groter de kans dat één van hen een statistisch significant resultaat vindt.

In een aantal reacties werd terecht opgemerkt dat een deel van het probleem gelegen is in het feit dat de wetenschappelijke cultuur te weinig ruimte biedt voor het publiceren van negatieve resultaten. Er is al zo'n overvloed aan wetenschappelijke output, dat de meeste tijdschriften zich niet kunnen veroorloven om aandacht te schenken aan een (vermeend) mislukte herhaling van een reeds gepubliceerd experiment. Zo ontstaat er dus de onaangename situatie waarin de resultaten van wetenschappelijk onderzoek niet meer op voorhand te vertrouwen zijn. En het kan nog erger.

In een laatste bijdrage in de discussie wijzen twee Duitse onderzoekers van de universiteit van Hamburg op het falen van het syllogisme, de logische manier van redeneren zoals die ooit door Aristoteles voor het eerst is beschreven. Als een dergelijke manier van redeneren wordt toegepast op kansuitspraken ontstaat er onzin. Als we willekeurig een mens beschouwen dan is de kans dat hij de paus is extreem klein: 1 op zes miljard = 0,000.000.000.17. Dus is stelling 1: als een individu menselijk is, is het onwaarschijnlijk dat het de paus is (p < 0,000.000.000.17.); 2. Johannes Paulus II is de paus; 3. dus hij is geen mens. (p < 0,000.000.000.17.). Zo geformuleerd zal voor iedereen de fout duidelijk zijn, maar toch komt een dergelijke formulering maar al te vaak voor, met name in de psychologische literatuur.

In de medische en sociale wetenschap wordt enorm veel met statistisch 'gereedschap' gewerkt. Alleen daarmee is het immers nog enigszins mogelijk om conclusies te trekken uit de vaak ingewikkelde resultaten van onderzoeken en enquêtes. Voorwaarde is dan natuurlijk dat dit niet alleen op de juiste manier gebeurt, maar dat ook terdege wordt overwogen of we onszelf niet collectief een rad voor ogen draaien. Wie de lotto wint, mag eigenlijk niet verbaasd zijn dat juist hij of zij is 'uitverkozen', maar moet zich realiseren dat miljoenen anderen buiten de prijzen zijn gevallen.