Balletjeballetje (3)

In het opstel 'Balletjeballetje als wetenschap' van Rob van den Berg (W&O, 8 augustus) komt een misverstand voor dat een goed begrip in de weg staat. Het gaat over het opsporen van verbanden tussen verschijnselen, bijvoorbeeld het vroegtijdig optreden van dementie, en allerlei variabelen.

Een onderzoeker zal dan vaak een groep waarin zo'n verschijnsel voorkomt opzoeken (een groep dementen bijvoorbeeld) en daarnaast een groep die het niet vertoont. 'Vervolgens onderzoekt hij beide groepen aan de hand van een lange lijst met zo'n honderd factoren als gezinsachtergrond, godsdienst enzovoorts. Van elke variabele test hij de zogenaamde nulhypothese: bestaat er een verband met het voorkomen van vroegtijdige dementie?', aldus Van den Berg. Volgens mij is dit niet gebruikelijk. De nulhypothese is doorgaans dat er nu juist geen verband is.

Van den Berg wijst er terecht op dat dergelijke tests geen absolute uitspraak mogelijk maken en dat de kans op een foute uitspraak altijd aanwezig is. Als men werkt met een onzekerheid van vijf procent zal, zo gelooft Van den Berg, 'in minimaal zo'n vijf procent van de gevallen een verband gevonden worden, of dat er nu ook echt is of niet'. Dit is onjuist. Een statistische toets wordt normaliter zo geconstrueerd dat de kans om een nulhypothese ten onrechte te verwerpen (te concluderen dat er verband is als dat er in feite niet is) maximaal 0,05 bedraagt. Als de mathematicus die de toets bedacht zijn werk goed heeft gedaan, dan zal in de meeste gevallen (d.w.z. afgezien van heel bizarre verbanden) de kans om de nulhypothese terecht te verwerpen (als het verband er dus wel is) groter zijn dan 0,05.

Ten onrechte verwerpen van de nulhypothese noemt men een fout van de eerste soort (Type I error, zoals Van den Berg heel geleerd zegt). Ten onrechte niet verwerpen van een nulhypothese heet, jawel, een fout van de tweede soort. Als je bijvoorbeeld als onbetrouwbaarheid 0,01 neemt in plaats van de beroemde 0,05 wordt je kans op een fout van de eerste soort kleiner, namelijk maar 0,01, en dat is mooi, maar de kans op een fout van de tweede soort wordt groter, en dat is vervelend. Die vijf procent is dus een compromis. Hoe meer materiaal men heeft, hoe kleiner in het algemeen de kansen op fouten van de tweede soort worden.

Als in een groot aantal laboratoria zulke tests, onafhankelijk van elkaar, worden uitgevoerd kan men in principe de resultaten weer combineren tot een 'overall'-test. Maar dat kan alleen als die testresultaten, of nog liever de getallenbestanden waarop ze zijn gebaseerd, bekend worden gemaakt. Inderdaad is het dus jammer dat 'negatieve' resultaten veel minder gauw worden gepubliceerd dan 'positieve', want dit maakt een statistische analyse van 'alle resultaten tot dusver' onmogelijk.