Nummer 1 is nummer één; DE WET VAN BENFORD BEPAALT EERSTE CIJFERS VAN GETALLENREEKS

In verbijsterend veel 'gewone' getallen- reeksen komt 1 vaker voor dan 2. En 2 weer vaker dan 3. Waarom? Nergens om.

TOEN DE AMERIKAANSE fysicus Frank Benford in het begin van de jaren dertig in de bibliotheek door een logaritmentafel zat te bladeren, viel hem iets op. De pagina's in het begin van het boek waren veel meer beduimeld dan aan het eind. Blijkbaar hadden zijn voorgangers vaker de logaritme nodig gehad van een getal dat met een 1, 2 of 3 begon dan met een 9. En zonder dat Benford dat aanvankelijk wist was een landgenoot van hem, de astronoom Newcomb, zo'n vijftig jaar eerder al hetzelfde opgevallen. Newcomb had er zelfs over gepubliceerd in de American Journal of Mathematics, waarin hij bovendien een (logaritmische) vergelijking had afgeleid voor de kans dat een getal met een bepaald cijfer zou beginnen (zie kader). Helaas voor Newcomb bleef zijn werk onopgemerkt.

Benford raakte zeer geïntrigeerd door de 'scheve' en tegen-intuïtieve verdeling en ging op zoek naar andere voorbeelden. De lijst die hij uiteindelijk na jaren speurwerk in 1937 zou publiceren was indrukwekkend. Overal was hij de logaritmische verdeling tegengekomen: in de oppervlakken van rivieren, in honkbalstatistieken, atoomgewichten, Reader's Digest artikelen, natuurconstanten, in totaal niet minder dan 20.000 observaties! Waar hij ook keek, steevast kwam de 1 in een getal als eerste significante cijfer het vaakst voor, gevolgd door de twee etc. De wet van Benford was geboren.

SCHAAL-INVARIANT

Het bleek een wet met een aantal opvallende eigenschappen, toepasbaar op willekeurige reeksen van afzonderlijke getallen, dus bijvoorbeeld niet op de decimalen van het getal pi. In de eerste plaats is hij schaal-invariant. Dat wil zeggen dat hij onafhankelijk is van de eenheid waarin de getallen worden uitgedrukt. Neem een willekeurige lijst aandelen, met koersen uitgedrukt in guldens, en reken deze vervolgens om in dollars. Benford gaat op en blijft opgaan. De wet is bovendien onafhankelijk van de manier waarop getallen worden uitgedrukt, of dat nu in een decimale of hexadecimale notatie gebeurt. Aan de andere kant is de wet weer verre van absoluut. Zo gaat hij niet op voor Rotterdamse telefoonnummers - want die beginnen bijna altijd met een vier - en ook niet voor prijzen in een supermarkt, en zelfs niet voor zoiets schijnbaar willekeurigs als de lijst van wortels van de natuurlijke getallen.

Benford zelf ontdekte dat een meetkundige reeks als 1, 2, 4, 8, 16 etc. weer wél voldoet aan zijn wet, en daar lag volgens hem ook de sleutel tot een beter begrip van wat aan de verdeling ten grondslag ligt. Hij meende soortgelijke reeksen namelijk terug te kunnen vinden in natuurlijke processen en gaf daarvan talloze voorbeelden. Volgens hem 'telt de Natuur logaritmisch en ... functioneert ze ook zo.' Dat klinkt aardig, maar het is slechts een beschrijving van het probleem op een andere manier, geen verklaring. Het biedt geen inzicht in wat er nu echt ten grondslag ligt aan de verdeling. Ook is wel geopperd dat de wet van Benford het gevolg zou zijn van opeenvolgende vermenigvuldigingen. Wie de uitkomsten van de tafels van 1 tot en met 10 neemt, vindt namelijk al een heel aardige overeenkomst en wanneer alle produkten van vier cijfers worden meegenomen - van 1x1x1x1 tot 10x10x10x10 - is de verdeling bijna perfect. Wanneer een lijst getallen dus het resultaat is van een aantal vermenigvuldigingen, zal altijd Benford-gedrag optreden. Aangezien in natuurlijke processen vele factoren een rol spelen, zou dit het vóórkomen van de Benford-verdeling in de natuur verklaren.

Dat mag zo zijn, maar hoe zit het dan met de getallen op de voorpagina's van NRC Handelsblad in een willekeurige week (zie illustratie) of met aandelenkoersen op de beurs van Wall Street? Ook die voldoen aan Benford. Wat is daar in vredesnaam de overeenkomst tussen? Naar pas onlangs duidelijk is geworden, is het juist deze 'veelvormigheid die de sleutel biedt en eigenlijk lag dat al besloten in Benfords originele artikel. Aan de tabel waarin hij zijn waarneming verzameld had, had hij namelijk één regel toegevoegd, die het gemiddelde weergaf van alle bovenstaande waarnemingen. En opvallend genoeg kwam deze 'gemiddelde' verdeling het dichtst bij de logaritmische wet: door alle waarnemingen bij elkaar op te tellen - zonder dus ook maar enigszins rekening te houden met de vaak enorme onderliggende (betekenis)verschillen - kwam de wet het best tot uitdrukking. Voor Ted Hill, als wiskundige verbonden aan het Georgia Institute of Technology, was die aanwijzing voldoende.

NIETS MYSTERIEUS

In een drie jaar geleden verschenen artikel (Statistical Science, vol 10 (1995), pp 354-363), wist hij aan te tonen dat de wet van Benford altijd zal gelden wanneer op een willekeurige manier uit willekeurig gekozen verzamelingen getallen worden gekozen. Dat is voldoende om de logaritmische verdeling te verkrijgen. En dat gebeurt zelfs wanneer de verdelingen afzonderlijk niet voldoen. Benford zelf zei het al: “de variëteit aan onderwerpen die ik heb bestudeerd was zo breed als tijd en energie mij toestonden.” Niets mysterieus dus, geen 'universele tabel van constanten', geen enkele diepere achtergrond, gewoon een wiskundig verschijnsel.

Maar dat wil nog niet zeggen dat je er niets nuttigs mee zou kunnen doen. De laatste paar jaar wordt hij opvallend genoeg op velerlei gebied toegepast. Bijvoorbeeld om wiskundige modellen te toetsen. Stel dat iemand wil proberen om op grond van de beurskoersen van de afgelopen maand een voorspelling te doen over die van de komende week. Aangezien de input voldoet aan Benford, moet dat ook gelden voor de output: Benford in, Benford out. Daarbij dient wel in het oog te worden gehouden dat zelfs als aan deze voorwaarde wordt voldaan, dat helemaal niets zegt over de nauwkeurigheid van het model. Benford kijkt immers alleen maar naar het eerste significante cijfer en maakt dus geen onderscheid tussen 30 en 3214. Ook bij het ontwerp van nieuwe computers kan de wet van Benford een rol gaan spelen. Als de 9 immers minder vaak voorkomt dan de 1, is het wellicht mogelijk om de snelheid te verhogen waarmee gegevens naar buiten worden gebracht en om geheugenruimte te besparen. Het idee daarachter is simpel. Neem de kassa in de supermarkt. Als zou zijn vastgesteld met welke munten of biljetten het meest wordt afgerekend, kan de geldlade zo worden ingericht dat het ontvangen en teruggeven van het wisselgeld het gemakkelijkst gaat en het minste tijd kost.

TRIOMFTOCHT

De belangrijkste toepassing van de wet van Benford ligt echter op het gebied van de opsporing van fraude in financiële stukken. Mark Nigrini, voormalig hoogleraar aan de Canadese St. Mary's University, ontwikkelde daar in het begin van de jaren negentig een methode voor. In zijn proefschrift uit 1992, getiteld 'The detection of income tax evasion through an analysis of digital distributions' (University of Cincinnati, 1993) deed hij er voor het eerst verslag van. Sindsdien heeft zijn digitale analyse techniek een ware triomftocht gemaakt. Nigrini heeft dan ook inmiddels de academische wereld verlaten en is voor de accountantsfirma Ernst & Young gaan werken. Daar ontwikkelde hij DATAS (Digital Analysis Tests And Statistics), waarmee hij - volgens de Wallstreet Journal van 11 juli 1995 - al bij diverse firma's gevallen van belastingontduiking wist op te sporen, vervalsers van checks ontmaskerde en zelfs de belastingopgave van president Clinton aan een grondig onderzoek onderwierp. Daar was overigens niks mis mee. En dat allemaal door te speuren naar afwijkende patronen in rijen getallen. Wanneer bepaalde cijfers of cijfercombinaties vaker voorkomen dan verwacht, wordt alarm geslagen. Iemand die bedrog pleegt en fictieve posten opvoert, slaagt er immers bijna nooit in de cijfers echt willekeurig te verdelen, laat staan dat hij of zij erin slaagt om de Benford-verdeling na te bootsen.

Maar er kan zo veel méér aan het licht gebracht worden. Sommige managers in het bedrijfsleven ontduiken hun spending authority door te grote bedragen op te delen in een aantal kleinere. Maar ook inefficiënte procedures kunnen aan het licht gebracht worden, bijvoorbeeld wanneer een bedrijf in één jaar bij dezelfde leverancier tweehonderd keer hetzelfde artikel blijkt te bestellen. Digitale analyse - gebaseerd op een obscure wiskundig wetje over cijferverdelingen - helpt om dit soort verschijnselen op te sporen.

Logaritmische reeks

Zowel Benford als Newcomb ontdekte dat de 1 in ongeveer 30 procent van de gevallen voorkomt en de twee in 18 procent. Alleen uitgaande van deze twee is de logaritmische verdeling snel gevonden: 0,30 is namelijk ongeveer gelijk aan de logaritme van 2 en 0,18 is iets groter dan de logaritme van 3/2. De wet van Benford luidt dan ook dat kans P(n) dat het eerste significante cijfer in een getal gelijk is aan n gegeven wordt door: P(n) is ongeveer gelijk aan log ((1+n)/n).

De makkelijkste manier om deze verdeling te testen is aan de hand van de ook door Benford al genoemde meetkundige reeks 1, 2, 4, 8, etc. Zelfs wanneer alleen de eerste honderd getallen worden meegenomen, is de overeenkomst met de bovenstaande theoretische formule al verbluffend goed. Er is overigens ook een meer algemene versie van de wet die ook een uitspraak doet over het verder voorkomen van cijfers in een getal, hoewel deze veel gelijkmatiger zijn verdeeld dan het eerste significante cijfer. Zo is de kans dat de eerste drie getallen 3, 1 en 4 zijn gelijk aan 0,0014, dat wil zeggen groter dan een duizendste, die je op grond van eenvoudige kansberekening zou verwachten!