Wat zag Zipf?

George Kingsley Zipf introduceerde in 1950 de wet van Zipf. Hoewel hier statistisch verrassend veel aan voldoet en er weer veel interesse is voor Zipf's waarnemingen, ziet het er toch niet zo gunstig uit voor de wet van Zipf.

Wat is het meest gebruikte woord in het Nederlands? De? Een? En welke woorden komen sowieso in elke tekst een groot aantal keren voor? Is? Van? Hoe de uiteindelijke rangschikking er ook uit mag zien, het is opvallend dat alle vaak gebruikte woorden zo kort zijn, iets wat overigens ook voor veel andere talen geldt. Je zou bijna gaan denken dat er iemand is geweest die ze in elkaar heeft gezet en er voor heeft gezorgd dat we zo efficiënt mogelijk met elkaar kunnen communiceren. Maar dat is natuurlijk onzin. Toch worden er al jarenlang, sinds het begin van onze eeuw, statistische technieken gebruikt om talen te onderzoeken en zo onvermoede regelmatigheden aan het licht te brengen.

Eén van de meest gedreven speurders op dit terrein was George Kingsley Zipf. Deze Amerikaanse taalkundige, die zichzelf overigens liever als een 'statistisch menselijk ecoloog' beschreef, was twintig jaar lang verbonden aan de universiteit van Harvard in Boston. Vlak voor zijn dood in 1950 publiceerde hij zijn Human Behavior and the Principle of Least Action en daarin voert hij voor het eerst de later naar hem genoemde wet ten tonele.

Die wet kwam hij op het spoor toen hij in een tekst ging turven hoe vaak elk woord voorkwam en vervolgens een rangschikking maakte van de gevonden aantallen. De voor elk woord gevonden frequentie bleek omgekeerd evenredig te zijn met het rangnummer van elk woord in de verdeling. Dat klinkt abstract, maar het betekent simpelweg dat het meest voorkomende woord in het Engels, the, tien keer vaker voorkomt dan het woord op de tiende plaats in de rangschikking. Wanneer we deze procedure toepassen op dit artikel, dan vinden we, op de eerste paar plaatsen na, een verrassend goede overeenstemming met de 'theorie'. Kijk maar naar de curve in de figuur, waarin de getrokken lijn overeenkomt met de wet van Zipf.

Bestudering van een groot aantal teksten wees uit dat deze door hem gevonden wet geldig was voor teksten van verschillende lengte (in elk geval meer dan 5000 woorden), in verschillende talen en met verschillende onderwerpen. Maar Zipf ging nog veel verder en ontdekte soortgelijke verbanden op heel andere terreinen en in een totaal andere context, bijvoorbeeld in de verdeling van inwoners over verschillende landen. Benoit Mandelbrot, de vader van de fractalen, noemde Zipf's boek dan ook een werk waarin 'geniale inzichten bijna overstemd worden door woeste aannames en extravaganties'. Een aardige karakterisering voor een boek dat onder meer de vorm van voortplantingsorganen behandelt en de Anschluss van Oostenrijk bij Duitsland rechtvaardigt omdat er zo beter aan Zipf's wet zou worden voldaan!

Klopt de wet van Zipf? En belangrijker: wat betekent het allemaal? Stel, we pakken een kist tomaten en maken een verdeling van de gewichten die we in de kist aantreffen over een aantal klassen. Bij voldoende grote aantallen zullen we in dit geval een 'klokkromme' te zien krijgen, die gecentreerd is rond een gemiddelde waarde. Een dergelijke normaalverdeling is kenmerkend voor iets wat volgens een natuurlijk proces tot stand komt.

Heel anders wordt het wanneer we gaan kijken naar de aantallen inwoners van steden. In de tabel is zo'n staatje weergegeven van steden in de Verenigde Staten (gebaseerd op de volkstelling van 1960). Met een redelijke nauwkeurigheid is de bevolking omgekeerd evenredig met het rangnummer. Dat is heel simpel te testen door het produkt van de twee te nemen: (rang)x(aantal) = constant - een wiskundige vertaling van de wet van Zipf. Een verdeling die aan bovengenoemde formule voldoet, heet wel hyperbolisch. Ook de inkomensverdeling in een maatschappij is hyperbolisch, dat wil zeggen dat 80% van het totale inkomen in een land wordt verdiend door maar 20% van de bevolking. Deze 'Zipf'-afhankelijkheid werd voor het eerst waargenomen door de Italiaanse econoom en socioloog Pareto en heet dan ook wel het Pareto-principe of in het Engels: de 80-20 rule.

Sinds Zipf's eerste statistische onderzoekingen is zijn wet op nog veel meer terreinen opgedoken, van de verdeling van soorten reptielen over verschillende families (genera) tot het aantal artikelen over verschillende onderwerpen in een wetenschappelijk tijdschrift. En eigenlijk kun je hem zonder moeite ook zelf overal aantreffen. Onlangs nog publiceerde het gerenommeerde Amerikaanse zakenblad Fortune een lijst van de 500 grootste ondernemingen ter wereld. En ja hoor, ook hier blijkt de wet van Zipf - zij het in enigszins gewijzigde vorm - weer op te gaan (in dit geval voor de totale omzet tegen de plaats in de rangschikking).

Onlangs kwam de wet van Zipf in een wel heel onverwachte 'taal' om de hoek kijken, namelijk in ons erfelijk materiaal. Moleculair biologen van de Harvard Medical School ontdekten een Zipf-afhankelijkheid bij de bestudering van junk-DNA, dat niet voor enig eiwit codeert en waar ons DNA voor niet minder dan 97% uit bestaat. Al eerder was ontdekt dat junk-DNA correlaties bevat die zich over lange afstanden uitstrekken. Dat duidde erop dat het wel eens een vorm van georganiseerde informatie zou kunnen bevatten. In het onlangs gepubliceerde onderzoek bekeken moleculair-biologen veertig DNA-sequenties afkomstig van verschillende organismen variërend van virussen tot mensen van tenminste 50.000 paren nucleotiden.

De onderzoekers groepeerden deze sequenties in stukken met lengtes van drie tot acht basen. In alle gevallen bleek het junk-DNA de wet van Zipf heel goed te volgen, veel beter dan het 'echte', wel coderende DNA. Direct al werd gespeculeerd dat de stukken junk-DNA wel degelijk informatie zouden kunnen bevatten, en wel over de manier waarop het DNA opgevouwen zit in de celkern. Anderen, onder wie Mandelbrot, zijn bijzonder sceptisch, en dat lijkt niet helemaal onterecht. Men wijst er bijvoorbeeld op dat de onderzochte stukken DNA wel erg kort zijn.

Het grootste probleem blijft echter dat hoeveel Zipf-fenomenen er ook worden gevonden, het gebrek aan een gedegen theoretische onderbouwing een volledige 'acceptatie' altijd in de weg zal blijven staan. Want wat moet je met een wet als je niet eens weet wat hij betekent? Nu is het niet zo dat er helemaal geen theorieën zouden bestaan. Benoit Mandelbrot heeft ooit pogingen ondernomen om de 'taalkundige formulering' van de wet van Zipf te verklaren door uit te gaan van een minimaliserings-principe. Wanneer je een taal helemaal vanuit het niets zou moeten ontwikkelen, dan is het goed om de betekenisinhoud van elk woord zo groot mogelijk te maken, al moet daar direct aan worden toegevoegd dat zoiets natuurlijk niet onbeperkt kan gelden. Van het standpunt van de spreker uit mag het immers het meest voordelig zijn om alle betekenissen aan het kortst denkbare woord te verbinden, maar dat gaat ten koste van het begrip en de informatieoverdracht.

Het zal duidelijk zijn dat de spreker meerdere woorden zal moeten gaan gebruiken, opdat zinvolle communicatie mogelijk blijft. Hij is echter wel vrij om betekenissen willekeurig over alle woorden te verdelen, zolang de 'spreekkosten-per-woord' maar worden geminimaliseerd. Uitgaande van dit principe kwam Mandelbrot op een theoretische frequentieverdeling die veel lijkt op wat Zipf vond.

Helaas kwam drie jaar geleden aan het licht dat ook random teksten, bestaande uit willekeurige verzamelingen van de letters van het alfabet en de spatie voldoen aan de wet van Zipf, ondanks het feit dat ze volledig betekenisloos zijn. En sowieso zegt Mandelbrots principe natuurlijk niets over al die andere waargenomen verbanden. Het ziet er met andere woorden niet echt goed uit. We kunnen dan ook alleen maar heel voorzichtig hopen dat de naar aanleiding van de junk-DNA resultaten hernieuwde interesse voor Zipf's intrigerende waarnemingen nu eindelijk eens tot een doorbraak zal leiden.