De wiskunde van de platte roddel; Sociale netwerken kunnen mathematische problemen oplossen

Vraag mensen niet naar hun eigen belasting- moraal, maar naar het frauderen van bekenden uit de omgeving. Twee Amerikaanse weten- schappers denken dat platte roddel wel eens de redding zou kunnen betekenen voor veel statistisch onderzoek.

DE WERELD is klein. Dat bleek vorig jaar weer eens toen er een vreselijk populair spel op het Internet verscheen. De vraag was hoe ver een willekeurige Hollywood-filmster afstaat van de acteur Kevin Bacon. Wie met hem in een film heeft gespeeld, heeft een Bacon-getal gelijk aan 1, en wie heeft samengespeeld in een film met iemand die met hem in dezelfde film zat, heeft Bacon-getal 2 etc. Het hoogste Bacon-getal was 4.

De test was geënt op het 'small world experiment' dat de Amerikaanse psycholoog Stanley Milgram - wereldberoemd door zijn gehoorzaamheidsexperimenten - in de jaren zestig uitvoerde. Hij gaf proefpersonen de opdracht een document bij iemand te bezorgen, die hen aanvankelijk volledig onbekend was. Ze kregen alleen wat persoonlijke gegevens over hun target. Op grond daarvan moesten ze het document naar iemand uit hun kennissenkring sturen, van wie ze het vermoeden hadden dat deze de onbekende wellicht zou kennen. Voor elke volgende ontvanger gold dezelfde opdracht, totdat het doel bereikt was. Zo ontdekte Milgram dat elke blanke Amerikaan gemiddeld slechts zo'n vijf stappen van een willekeurige andere blanke verwijderd is, terwijl tussen een blanke en een zwarte één stap meer bleek te zitten.

GROEPSPROCESSEN

Sociale netwerken kunnen veel over groepsprocessen vertellen. Volgens Russell Bernard, een antropoloog uit Florida, en Peter Killworth, van oorsprong een theoretisch fysicus, maar werkzaam als oceanograaf in Southampton, kunnen sociale netwerken zelfs statistische informatie boven water brengen die anders verborgen zou zijn gebleven. Over eigen zwakheden of persoonlijke problemen zijn mensen zelden helemaal open. Hun antwoorden, bijvoorbeeld op vragen over de belastingmoraal, zullen de waarheid vaak wat mooier voorstellen dan die in werkelijkheid is. Volgens Bernard en Killworth moet je mensen daarom geen vragen over zichzelf stellen, maar over iemand in hun naaste familie of kennissenkring. Zij denken dat platte roddel wel eens de redding zou kunnen gaan betekenen voor veel statistisch onderzoek.

Bernard en Killworth begonnen hun samenwerking ruim vijfentwintig jaar geleden. Dat resulteerde onder andere in de ontwikkeling van een zogenaamde clique-finder, een computerprogramma waarmee sociale structuren kunnen worden blootgelegd. Ze pasten het op vele gebieden toe, onder andere in gevangenissen, en steeds wist het programma groepen te identificeren waarvan het gevangenispersoneel (achteraf) kon verklaren waarom ze bij elkaar hoorden. In één geval liep het mis, toen drie gedetineerden bij elkaar werden geplaatst zonder dat er enige overeenkomst tussen hen was te ontdekken: het programma leek een artefact te hebben opgeleverd. Totdat de drie een week later samen ontsnapten.

Dergelijke clique-finders zijn in feite gebaseerd op maar één enkel soort vraag: 'Met wie praat je het meest?' of 'Met wie ga je het meeste om?' Maar dat hoeft niet de juiste manier te zijn om achter een sociale netwerk te komen. Vragen als 'Aan wie ben je geld verschuldigd?' of 'Met wie ga je het meeste om?', zouden een totaal verschillend antwoord kunnen opleveren.

Om sociale netwerken te kunnen gebruiken om statistische informatie boven water te halen, probeerden Bernard en Killworth via een bevolkingsonderzoek in Florida eerst de grootte van zo'n netwerk te bepalen. De deelnemers kregen vragen voorgelegd als: 'Ken je iemand die Michael heet?' of 'Ken je iemand die aan suikerziekte lijdt?'. Dat leverde precies de basisinformatie over de grootte van een netwerk van elke ondervraagde. Die lag gemiddeld rond de 250. Sterke afwijkingen van dit gemiddelde bleken onder andere te worden veroorzaakt door wat de onderzoekers transmissie-effecten noemden. Zo was de geschatte grootte voor aids-patiënten minder dan een derde van die van moordslachtoffers: blijkbaar verspreidt de informatie dat iemand aids heeft zich heel selectief.

HEIKELE VRAGEN

Daarna volgden de heikele vragen, over bijvoorbeeld verkrachtingen en frauderen met belastingaanslagen. Voor dit soort 'moeilijke' kwesties is het een uitkomst niet persoonlijk te worden ondervraagd, maar alleen maar te hoeven melden dat er mensen in jouw omgeving zijn die frauderen. Door dit met een representatief aantal mensen te herhalen kan betrouwbare statistische informatie worden verkregen over heikele kwesties. Bernard en Killworth konden uit deze gegevens onder andere het aantal seropositieven, daklozen en verkrachtingsslachtoffers in heel de Verenigde Staten afleiden. De gevonden aantallen kwamen goed overeen met de beste schattingen op basis van veel ingewikkelder onderzoek. De methode lijkt dus te werken, al zijn er nog wel wat probleempjes op te lossen. Zo werkt de methode enigszins nivellerend, doordat grote groepen stelselmatig wat kleiner worden geschat en kleine juist wat omvangrijker. Roddel is blijkbaar nog niet helemaal volmaakt.

Niet bekend

ONOPLOSBAAR

In 1950 wees de gezaghebbende socioloog Robinson van de Universiteit van California in Los Angeles erop dat het EIP onoplosbaar was. Hij gaf het voorbeeld van onderzoek naar de aantallen immigranten en aantallen analfabeten in verschillende Amerikaanse staten. Als alle staten naast elkaar werden gezet, bleek het aantal analfabeten het grootst te zijn in die staten waar de minste immigranten woonden. Het is verleidelijk om op grond daarvan te concluderen dat immigranten meer geletterd zijn dan autochtone Amerikanen. Maar dat bleek onjuist. De werkelijke verklaring voor de gevonden correlatie was dat staten die veel aan onderwijs plachten uit te geven, toevallig ook de meeste immigranten hadden opgenomen. Zijn artikel werd een veelgeciteerde klassieker, niemand durfde het EIP meer aan te pakken.

King doet dat nu dus wel. Hij stelt zijn oplossing in de vorm van een computerprogramma beschikbaar op zijn homepage. De theorie achter Kings oplossing van het EIP is vreselijk ingewikkeld, maar het principe is simpel. Aan de ene kant zijn er de 'harde' uitkomsten van bijvoorbeeld verkiezingen en enquêtes. Die bepalen de grenzen waartussen de gezochte waarden moeten liggen. Als er in een kiesdistrict 50.000 zwarten wonen, en er 20.000 stemmen zijn uitgebracht op een Democratische kandidaat, dan kan het aantal zwarten dat Democratisch gestemd heeft niet hoger zijn dan 20.000. Vreemd genoeg leverden de tot nu toe gebruikte methoden soms wel degelijk uitkomsten op die met dit soort simpele voorwaarden in strijd waren. King voorkomt dat en bovendien probeert hij de beschikbare informatie uiteen te rafelen in zo klein mogelijke eenheden: zo beschouwt hij niet een volledig kiesdistrict, maar eerder de kleinere precincts daarbinnen. Daardoor komt er belangrijke statistische informatie beschikbaar, waarmee hij de aanvankelijk brede marges sterk kan verkleinen, zodat uiteindelijk vrij zekere uitspraken kunnen worden gedaan.

Hij testte zijn methode aan de hand van een database met 16.000 uitkomsten van verkiezingen, waarbij wél bekend was hoe elk individu had gestemd. En elke keer kwam zijn oplossing daar prachtig mee overeen. Daarom wordt hij steeds vaker als getuige-deskundige opgeroepen bij rechtszaken in het kader van de Amerikaanse Voting Rights Act. Wie namelijk kan aantonen dat door de manier waarop de grenzen van kiesdistricten zijn vastgesteld, een bepaalde groep kiezers een door hen gewenste kandidaat niet heeft kunnen kiezen, kan een verkiezingsresultaat aanvechten. Stel dat zwarten overwegend de voorkeur geven aan een kandidaat van de Democraten. Dan zou het wel eens gunstig voor Republikeinse kandidaten kunnen uitpakken om een grens van een kiesdistrict dwars door een zwarte wijk te laten lopen. Met de methode van King kan nu op betrouwbare wijze worden aangetoond of het inderdaad zo is dat bij reeds gehouden verkiezingen de zwarte kiezer overwegend Democratisch heeft gestemd. Maar even goed wordt het voor fabrikanten veel gemakkelijker om uit te vinden wie de voornaamste afnemers zijn van hun producten. En dat allemaal zonder dat daar duur onderzoek voor nodig is.