Bayes (12)

Het tumult naar aanleiding van Rob van den Bergs bijdrage over Bayesiaanse statistiek is in de bijlage van afgelopen donderdag mijns inziens niet goed in rechte banen geleid, met name niet wat betreft het 'drie-deurenprobleem'. Ik heb mij er daarom alsnog toe laten verleiden een reactie in te sturen, met het risico natuurlijk dat de redactie de kwestie al voor gesloten heeft verklaard.

Wat mij vooral heeft gestoord is dat Rob van den Berg ook de tweede keer niet goed wist uit te leggen hoe men tot de juiste oplossing van het probleem komt, en zeker niet hoe het Bayesianisme deze oplossing aanreikt. Dit is des te treuriger gezien de overduidelijke verwarring hierover bij veel lezers, zoals uit de afgedrukte brieven blijkt. Voor een correcte behandeling verwijzen naar het blad Pythagoras is flauw - een krant die zijn lezers een probleem voorschotelt moet hun ook de oplossing kunnen voorleggen. Vandaar dat ik wil proberen uit te leggen hoe men precies afleidt dat de kans dat de prijs zich achter de overblijvende deur bevindt inderdaad is en, minstens zo belangrijk, hoe het komt dat veel mensen abusievelijk menen dat deze kans veeleer is.

De kern van de Bayesiaanse statistiek is dat men voor de kans dat een of andere hypothese H juist is nadat men een bepaald feit (de 'evidentie' E) heeft vastgesteld de waarde moet nemen van de conditionele waarschijnlijkheid van H, gegeven E - geschreven P(H|E). Om deze voorwaardelijke kans te berekenen neemt men doorgaans zijn toevlucht tot de volgende formule (de zogenaamde regel van Bayes, niets meer dan een eenvoudige wiskundige stelling): P(H|E)=P(E|H).P(H)|P(E). Hierin is P(E|H) de kans dat men het feit E zal waarnemen als men ervan uit mag gaan dat H juist is, P(H) de kans die aanvankelijk aan de juistheid van H werd toegekend, en P(E) de verwachting van het optreden van het feit zonder meer, los van de juistheid van hetzij H hetzij een van de mogelijke alternatieven. Om de waarde van P(E) vast te stellen wordt deze grootheid vaak ontbonden naar elk van de mogelijke alternatieven: P(E)=P(E)|H).P(H) +...+ P(E|H). P(H).

In het geval van de drie deuren hebben we drie elkaar uitsluitende hypothesen H, H en H: de prijs bevindt zich achter resp. de eerste, de tweede of de derde deur. Aan elk van deze drie hypothesen wordt aanvankelijk de kans toegekend. De kwiskandidaat kiest willekeurig een deur, zeg de eerste deur. De evidentie is vervolgens E: de kwisleider opent de tweede deur en laat zien dat de prijs zich niet achter de tweede deur bevindt. Welke kans moeten we hierna toekennen aan H en aan H, ofwel, welke waarde hebben P(H|E) en P(H|E)? Daarvoor moeten we zorgvuldig nagaan hoe groot P(E|H), P(E|H) en P(E|H) zijn. P(E|H) is eenvoudig: dit is gelijk aan nul. Immers, als de prijs toevallig achter de tweede deur ligt had de kwisleider deze niet open kunnen doen. Als de prijs daarentegen achter de derde deur ligt had de kwisleider geen andere keus dan de tweede deur te openen: P(E|H)=1. Als de prijs juist achter de eerste deur ligt had de kwis- leider de mogelijkheid hetzij de tweede hetzij de derde deur te openen om de gapende leegte daarachter te tonen.

We kunnen daarom aan de kans dat hij/zij de tweede deur zou kiezen de waarde toekennen: P(E|H) = . Hieruit berekenen we dat P(E)=P(E|H).P(H) + P(E|H).P(E) + P(E|H P(H) = . + 0. + 1.=.

Het berekenen van P(H|E) en P(H|E) met behulp van de formule van Bayes levert dan op: P(H|E)= en P(H|E) = .

De kwiskandidaat moet inderdaad van keuze veranderen. Er is geen IQ van bovenmenselijke proporties voor nodig om tot deze slotsom te komen; het is in feite een standaardprobleem.

Dat veel mensen abusievelijk menen dat P(H|E= en P(H|E) = komt doordat ze al te haastig P(E|H) = P(E|H) stellen, zonder er rekening mee te houden dat de kwisleider niet in beide gevallen met hetzelfde gemak een van de twee niet-gekozen deuren kan openen. Ze realiseren zich niet dat de juiste interpretatie van bijvoorbeeld P(E|H) is dat deze uitdrukking staat voor de kans waarmee je erachter zult komen dat de prijs niet achter de tweede deur ligt als hij feitelijk achter de eerste ligt. En die kans is kleiner wanneer de prijs inderdaad achter de eerste deur ligt dan wanneer hij achter de derde deur ligt.