De perfecte peiling is niet meer zo ver weg

Whizzkid Nate Silver had de uitslagen van de Amerikaanse verkiezingen bijna foutloos voorspeld – ook die voor de races voor de Senaat. Zijn geheim: heel veel data en heel ingewikkelde wiskunde. En veel ervaring met het honkbal.

Chris Hensen

Nate Silver poses for a portrait at an undisclosed location in this undated handout photo released to the media on Oct. 3, 2012. Silver is the author of "The Signal and the Noise: Why Most Predictions Fail But Some Don't." Photographer: Robert Gauldin/Penguin Press via Bloomberg EDITOR'S NOTE: EDITORIAL USE ONLY. NO SALES. Via Bloomberg

Hoe bijzonder was de prestatie van Nate Silver? De bloggende whizzkid van The New York Times (34 jaar, cum laude afgestudeerd in de statistiek aan de Universiteit van Chicago) had de uitslag van de Amerikaanse presidentsverkiezingen nagenoeg perfect voorspeld.

Hij was speciaal door de krant ingehuurd om het cijferwerk te doen. Vijftig van de vijftig staten had hij goed. Hij voorspelde zelfs dat het er in swing state Florida lange tijd uit zou zien alsof het een gelijkspel ging worden, maar dat Obama uiteindelijk nipt zou winnen. Dat is zoiets als voorspellen dat een munt op zijn zijkant valt en blijft staan, merkten Amerikaanse media op. Bij de races tussen senatoren was Silver eveneens bijna feilloos. Hij had één uitslag verkeerd.

De traditionele peilers stonden in hun hemd. Die scoorden collectief veel slechter. Silver zette na afloop de prestaties van de gevestigde bureaus op een rijtje, op zijn blog fivethirtyeight.blogs.nytimes.com. Gerenommeerde peilingsbureaus als Rasmussen en Gallup bungelden onderaan de lijst. Tot op de dag van de verkiezingen hadden veel bureaus volgehouden dat de race too close to call was, een nek-aan-nek-race waarvan de uitslagen niet te voorspellen was.

Silver niet. Die zei al weken dat Obama voor 90,9 procent zeker zou winnen. Hij werd er door commentator Joe Scarborough van televisiezender MSNBC (tevens voormalig Republikeins Congreslid) keihard om aangepakt. Hij noemde Silver „een grap”, iemand die de kansen van Obama bewust beter voorstelde dan ze waren om kiezers te beïnvloeden. Had Silver niet ooit gezegd dat hij Obama-stemmer was?

Onder collega-whizzkids, op websites als techcrunch.com, wordt Silver als genie gezien. Hij heeft bewezen dat stemgedrag wel degelijk nauwkeurig te voorspellen is, zeggen zij. Dit in tegenstelling tot wat traditionele peilers al jaren beweren. Die zeggen dat peilingen niet meer dan momentopnames zijn.

Sterker, zeggen zijn fans, Silver heeft van voorspellen in het algemeen een exacte wetenschap gemaakt. „Hiermee is het gekwantificeerde universum volwassen geworden”, schreef iemand op techcrunch.

Onder traditionele peilers is de reactie lauwer. Daar blijft men volhouden dat exact voorspellen onmogelijk is. De enigen die enigszins accuraat kunnen vooruitblikken, zeggen zij, zijn meteorologen. En zelfs die kunnen dat niet langer dan 24 uur vooruit. Toevalstreffers (Silver had bij de verkiezingen in 2008 49 van de 50 staten goed) moesten niet worden uitgesloten.

Om te bepalen of Silver het peilen van verkiezingen werkelijk naar een hoger plan heeft getild, zou men eigenlijk een statistische analyse moeten loslaten op al zijn voorspellingen. Dat is tot op heden niet gebeurd. Het zou ook een ingewikkelde exercitie zijn. Feit is dat Silver er weleens naast zit. In 2010 overschatte hij bijvoorbeeld ruimschoots het aantal zetels dat de Lib-Dems zouden behalen bij de Britse parlementsverkiezingen.

Feit is echter ook dat Silvers aanpak radicaal verschilt van die van de traditionele peilers. Hij baseert zich op geavanceerde wiskundige en statistische formules en grote hoeveelheden data, dat alles verwerkt door krachtige computers. Door al die moderne technologie en de meer wetenschappelijke benadering worden peilingen inderdaad nauwkeuriger – net zoals dat overigens met weersvoorspellingen gebeurt.

Silver heeft zelf nog nooit één kiezer gevraagd wat die wilde gaan stemmen. Hij begint met het verzamelen van peilingen van andere peilers. Niet een paar, maar honderden. Van elk onderzoeksbureau verzamelt hij meerdere peilingen, vrijwel alle die ze in de weken voorafgaand aan de verkiezingen hebben gepubliceerd. Dit om ‘kuddegedrag-effecten’ tegen te gaan, zegt Silver. Volgens hem hebben grote peilbureaus de neiging om tegen het einde van de race hun voorspellingen meer ‘op één lijn’ te brengen met die van hun directe concurrenten.

Hij wijt de slechte prestaties van Rasmussen en Gallup overigens ook aan onintelligente methodes: beide bureaus zouden kiezers vooral op hun vaste lijnen hebben gebeld. Maar veel Obama-stemmers zijn jongeren, arme hispanics of Afro-Amerikanen, en die hebben vaak alleen een mobieltje. Zo zouden de bureaus de kansen van Romney structureel hebben overschat.

Bij die data houdt Silver echter niet op. Hij verzamelt nog veel meer gegevens. Zoals economische cijfers, bijvoorbeeld hoeveel geld er op staats- en districtsniveau was uitgegeven door particulieren en bedrijven aan de campagnes van de kandidaten. En hij voegt demografische informatie toe, data over inkomens- en leeftijdsverdelingen van staten en districten en de etnische samenstelling daarvan.

Ook gebruikt Silver gegevens uit het verleden, over het dominante stemgedrag in staten en districten. Daarmee kopieert hij een methode die eerder door hem was ontworpen voor het honkbal. Silver was ooit honkbalanalist. Op basis van gegevens over de fysiek van profspelers uit het verleden (denk aan conditie en spiermassa) stelde hij profielen op van bepaalde spelertypes. Door honkbalspelers van nu met die profielen te vergelijken, bleek hij bijzonder accuraat hun toekomstige prestaties te kunnen voorspellen. Zijn methode werd zo’n succes dat die werd gekocht door een bekende Amerikaanse honkbalsite die statistieken verkoopt aan spelersmakelaars en aan clubs die spelers willen kopen. Ook werd er een Hollywoodfilm over Silvers methode gemaakt, Moneyball.

Over dat alles heen legt Silver ten slotte buitengewoon ingewikkelde, door hemzelf ontworpen wiskundige modellen, die door computers met een formidabele rekenkracht worden verwerkt. Bij de afgelopen verkiezingen stonden computers wel een hele nacht door te ratelen om alle cijfers te verwerken en uiteindelijk een voorspelling te produceren.

Silver is met die methode illustratief voor twee ontwikkelingen in de peilwereld: het toenemende gebruik van big data, zoals het onder Silvers vakgenoten wordt genoemd. En de opkomst van razendslimme, hoogopgeleide jongeren die al data kunnen bewerken en omtoveren tot bruikbare cijfers – de zogeheten quants, of zoals Silver zichzelf liever noemt: de professionele nerds.

Die quants zag je elders ook al steeds vaker opduiken, in het zakenleven met name. De bankenwereld is daarvan vermoedelijk het bekendste voorbeeld. Daar werden aan het begin van dit millennium en massa quants aangenomen, om de complexe financiële producten te ontwerpen die uiteindelijk aan de basis stonden van de grootste financiële catastrofe in decennia. Maar in de wereld van de politiek dringen de quants nu ook langzaam door.

Silver is de bekendste onder dit „nieuwe ras van analisten”, zoals de International Herald Tribune hen omschrijft. Maar tijdens de Amerikaanse verkiezingen vestigden nog meer quants de aandacht op zich. Bijvoorbeeld Sam Wang, neurowetenschapper van de Princeton universiteit. Hij wist zelfs nog zekerder dat Obama ging winnen, hij dichtte hem een kans toe van 98,9 procent. Hij had alleen de uitslag in Florida fout. Drew Linzer, assistent professor aan de Emroy universiteit en auteur van het veelgelezen votamatic-blog, voorspelde dat Romney van de swing states alleen North Carolina zou pakken en verder kansloos was.

Ook onder politici zelf rukken de quants en het gebruik van ‘big data’ op. Binnen het campagneteam van Obama was er bijvoorbeeld een aparte club die zich louter bezighield met het voorspellen van stemgedrag, schreef TIME magazine vorige week. Op basis van duizelingwekkende hoeveelheden persoonlijke gegevens, die elke nacht door krachtige computers een stuk of 66.000 keer werden geanalyseerd, werden elke ochtend concrete gegevens geproduceerd, op basis waarvan de campagnestrategie werd bijgestuurd, liet TIME zien.

TIME schrijft dat „het tijdperk van big data” in de politieke wereld, en in de wereld van het peilen, nog maar net begonnen is. Veel wijst op verdere, ingrijpendere revoluties. De internetzoekmachine Google publiceerde bijvoorbeeld haar eigen peilingen. Die waren de op één na beste in het rijtje van Silver. Google baseerde zijn voorspellingen onder meer op het zoekgedrag van bezoekers van zijn site en op een online enquête waarop mensen konden aangeven op wie ze gingen stemmen. Die schat aan informatie werd gekraakt door analisten en omgevormd tot cijfers.

Een Harvard-student schrijft in de universiteitskrant dat het echte peilen in de toekomst misschien niet eens meer hoeft te gebeuren. Aan de analyse van veelgebruikte zoektermen per staat (denk aan Obama + moslim of Obama + Medicare), zou Google bijna zeker kunnen voorspellen wie de verkiezingen gaat winnen. Silver leek dat deze week te beamen. In een artikel bij zijn onderzoekje schreef hij dat het „misschien niet lang meer zal duren voor Google, en niet Gallup, de meest betrouwbare naam is in de peilwereld.”