Zipf

In w&o van 2 november stelt Rob van den Berg dat drie jaar geleden een groot probleem voor de wet van Zipf bekend werd, namelijk dat ook willekeurige opeenvolgingen van alfabetletters en spaties aan de wet voldoen.

Maar al drie decennia geleden heeft George Miller er in zijn inleiding bij de heruitgave van Zipf's The Psychobiology of Language; An Introduction to Dynamic Philology (MIT-Press 1965) op gewezen dat ook de telling van 'woorden' die ontstaan door de willekeurige verdeling van spaties over een lange willekeurige reeks van letters, beantwoordt aan de wet van Zipf. Miller geeft bovendien Mandelbrodt de eer dat die hiervoor de onderliggende reden heeft opgespoord: gegeven de willekeurige verdeling van spaties over de lange letterreeks zijn er noodzakelijkerwijs meer gevallen van korte 'woorden' dan van lange.

Volgens Mandelbrodt neemt de verscheidenheid aan verschillende 'woorden' exponentieel toe met hun lengte en dat levert de wet van Zipf op: een klein aantal korte woorden komt zeer vaak voor, een zeer groot aantal woorden komt juist heel weinig voor. Miller concludeert dat Zipf de feiten goed had, maar in zijn verklaring verkeerd zat.