Eenzijdige vragen

In het artikel "Lagere score meisjes deels door eenzijdige vragen' (NRC Handelsblad, 18 mei) wordt geconstateerd dat van de 600 onderzochte vragen 48 in het voordeel van jongens waren en 9 in het voordeel van meisjes. André Verburg denkt dat dit geen verklaring kan zijn voor een significant hogere score van jongens (NRC Handelsblad, 1 juni). Daarmee meent Verburg dat het percentage vragen in het voordeel van jongens (acht procent) niet significant verschilt van het percentage vragen in het voordeel van meisjes (anderhalf procent). Deze mening is niet juist.

Neem aan dat de zeshonderd vragen een aselecte steekproef vormen uit de talloze vragen uit de eindexamens Frans, Duits en Engels. Op de een of andere manier wordt vastgesteld of een bepaalde vraag neutraal, in het voordeel van jongens, of in het voordeel van meisjes is. We bekijken de toevallige grootheden N0, N1 en N2, die respectievelijk het aantal neutrale vragen, het aantal vragen in het voordeel van jongens en het aantal vragen in het voordeel van meisjes beschrijven. De kans dat een bepaalde vraag in een van deze categorieën valt, noemen we p0, p1 en p2, respectievelijk. We zijn dan geïnteresseerd in de vraag of p1 gelijk is aan p2. Dan immers zijn de examens gemiddeld neutraal. De hypothese H : p1 = p2 moet dus worden getoetst.

We maken gebruik van de zogeheten Generalized Likelihood Ratio toets. Bedenk dat (N0, N1, N2) een multinomiale verdeling volgt met succeskansen p0, p1 en p2. In onze steekproef vinden we als uitkomsten voor N0, N1 en N2 respectievelijk 543, 48 en 9.

Als bovenstaande hypothese waar zou zijn, zou de kans op een dergelijke uitkomst bij benadering 0,06 x 10-6 zijn. Deze kans wordt wel overschrijdingskans of p-waarde genoemd. Aangezien deze zeer klein is, verwerpen we de hypothese dat p1 en p2 gelijk zijn. Het gevonden verschil is dus wel degelijk statistisch significant.