Brieven over fraude

Significantiejacht (3)

In een eerdere brief (Wetenschapsbijlage 28 januari) schreef ik over de ernstige gevolgen van het weglaten van statistische informatie. Veel sociaal-wetenschappelijke onderzoekers bezondigen zich aan een significantiejacht, als hun oorspronkelijke hypothese niet door een significant resultaat bevestigd wordt. In zijn reactie (Wetenschapsbijlage, 11 & 12 februari) schrijft prof. ’t Hart dat in mijn redenering dingen niet kloppen.

Hij schrijft dat statistische toetsing moet plaatsvinden op basis van eerder gestelde hypothesen. Daar heeft hij helemaal gelijk in en dat werd ook niet door mij tegengesproken. Integendeel. In de significantiejacht wordt alles met alles gecorreleerd en worden vervolgens de zogenaamd ‘significante’ verbanden eruit geselecteerd en gepubliceerd zonder vermelding van het totale aantal in de jacht betrokken verbanden. Dit is een extreme vorm van hypotheseloos toetsen. Bovendien frauduleus, omdat door alles met alles te correleren in plaats van uit te gaan van één of enkele specifieke hypothesen het feitelijk gehanteerde significantieniveau al gauw heel veel hoger is dan het vermelde niveau (meestal 5 procent).

Er zijn methoden om het opblazen van het significantieniveau bij meervoudige hypothesen te voorkomen. Om het nut daarvan aan te tonen gaf ik het voorbeeld van een enquête van 100 vragen onder 100 personen die niet minder dan 248 ‘significante’ verbanden opleveren. Nog even de rekensom. 100 x 100 = 10.000 resultaten. Daar gaat 100 vanaf, omdat een vraag niet met zichzelf verband houdt. We delen vervolgens door 2, omdat een verband van a met b hetzelfde verband is als b met a. Dat geeft 4.950 samenhangen. Vijf procent daarvan geeft afgerond 248 ‘significante’ samenhangen.

Maar 248 samenhangen zijn voor een belangrijk deel helemaal niet significant bij toepassing van de juiste methoden. Deze methoden passen het significantieniveau van individuele hypothesen aan om het gewenste meervoudige niveau van 5 procent niet te overschrijden. ’t Hart stelt de retorische vraag: ‘Met andere woorden, gaat het bij 100 vragen eigenlijk wel om 248 significante verschillen, zoals de heer Oud zegt?’ en mijn argument is hem dus kennelijk ontgaan.

Helemaal oneens ben ik het met ’t Hart als hij het niet nodig lijkt te vinden om de resultaten van eerder onderzoek aan te passen bij het beschikbaar komen van nieuwe onderzoeksresultaten op hetzelfde terrein. Er is alle reden om nieuwe onderzoeksresultaten in een zogenaamde meta-analyse te combineren met eerder gevonden resultaten, enerzijds om de ‘power’ van de statistische analyse te verhogen bij een groter databestand maar juist ook om de nieuwe data de gelegenheid te geven de eerdere conclusies te corrigeren. De aard van statistisch onderzoek brengt immers met zich mee dat conclusies slechts met bepaalde foutenmarges worden getrokken. Inderdaad kan het dan heel goed zijn dat een eerdere hypothese alsnog moet worden verworpen. Het antwoord op ’t Harts retorische vragen: ‘Moet deze [eerdere, J.O.] hypothese worden verworpen als nog andere metingen worden verricht?’ en “Is de conclusie dan bij een [eerder, J.O.] significant verschil misschien ongeldig’ is dus bevestigend. De corrigerende functie van meta-analyse kan overigens in het gedrang komen door de tendens bij tijdschriften om alleen positieve significante resultaten te publiceren, waarop de meta-analyses worden gebaseerd. Gelukkig verschaft meta-analyse ook procedures om voor deze vorm van significantiejacht (het ‘file drawer problem’) te corrigeren .

Dr. J.H.L. Oud

Statisticus, UHD Radboud Universiteit Nijmegen

Significantiejacht (4)

In zijn brief schrijft ’t Hart dat in de redenering van Oud geen hypothese is gesteld. Volgens mij is dat wel het geval, zij het dat dit niet zo uitdrukkelijk vermeld wordt. Immers Oud schrijft dat de significantiejacht begint als het beoogd resultaat uitblijft. Met dit beoogd resultaat wordt blijkbaar de hypothese bedoeld die voorafgaand aan de dataverzameling is gesteld.

Wat daarna volgt is dat de onderzoeker met behulp van de significante resultaten in de dataverzameling alsnog een hypothese opstelt. Op zich is daar niets mis mee als men deze hypothese maar toetst op nieuwe data. Voor het verkrijgen van nieuwe data ontbreekt echter vaak de tijd en het geld. Het gebeurt dus niet. Maar omdat men bij een publicatie niet kan zien of de hypothese voor- of na kennisneming van de data is opgesteld is, is deze vorm van fraude zonder nadere informatie niet te achterhalen.

’t Hart stelt dat andere metingen niets afdoen aan de gevonden significantie van het verschil tussen een proef- en controlegroep. Op zich is dit waar. Toch kan het opnemen van een nieuwe variabele de betekenis van een significant verschil totaal veranderen.

Neem bijvoorbeeld tabel 1 (zie boven). Hierin is er een proefgroep B van 40 personen die een behandeling ondergaat en een controlegroep ~B van 40 personen die niet wordt behandeld. Verder is per regel het aantal proefpersonen dat geneest G en het aantal proefpersonen dat niet geneest ~G opgenomen. Na in voering van de nieuwe variabele geslacht zijn in de tabellen 2 en 3 de aantallen genezen en niet genezen proefpersonen uitgesplitst naar geslacht weergegeven.

In tabel 4 tenslotte is voor de categorieën behandeld B en niet behandeld ~B het percentage genezen proefpersonen opgenomen. Niet uitgesplitst naar geslacht lijkt de behandeling effectiever dan niet behandelen, maar wel uitgesplitst blijkt zowel voor mannen als vrouwen niet behandelen effectiever.

Prof. Dr. Ir. D.Neeleman

emeritus-hoogleraar statistiek,Hoogland

    • Prof. Dr. Ir. D.Neeleman
    • Dr. J.H.L. Oud