De overmacht van ‘ja’, ‘de’ en ‘uh’

Taalkunde

Woordkeuze in taal voldoet aan een eigenaardige wetmatigheid. Taalkundige Sander Lestrade ontdekte waardoor dat komt.

Illustratie NRC

De beroemde Amerikaanse roman Moby Dick telt 217.000 woorden. De tekst bevat 17.000 verschillende woorden. Het meest voorkomende woord is ‘the’: 14.000 keer. Zet de frequenties van alle woorden in het boek uit in een logaritmische grafiek en je krijgt een mooie rechte lijn. Dat geldt niet alleen voor Melvilles Moby Dick, maar het is een intrigerende wetmatigheid die overal opduikt in geschreven en gesproken taal.

Deze ‘wet van Zipf’ kon nooit goed verklaard worden. Taalkundige Sander Lestrade van de Radboud Universiteit in Nijmegen heeft nu, mogelijk, de verklaring gevonden (‘Unzipping Zipf’s Law’ in PLOS ONE). Hij baseert zich op computersimulaties van taal.

De wet van Zipf gaat over de frequentie waarmee woorden gebruikt worden. Zoals bekend zijn er in iedere taal woorden die veel gebruikt worden en woorden die weinig gebruikt worden. Als je in een grote hoeveelheid tekst telt hoe vaak woorden daarin voorkomen, kun je aan de hand daarvan een frequentielijst maken, die begint met het meest voorkomende woord, daarna het op één na meest voorkomende woord, daarna nummer drie, daarna nummer vier, en zo verder.

De Amerikaan Edward Condon ontdekte in 1928 een mooie regelmaat in die frequentielijsten. Maar het was zijn landgenoot George Zipf die er brede bekendheid aan gaf, vandaar dat de wetmatigheid naar hem genoemd is. Er blijkt een elegant wiskundig verband te zijn tussen het rangnummer dat een woord heeft in zo’n frequentielijst, en de gemeten frequentie zelf.

Stel dat het tiende woord op de lijst in het tekstmateriaal duizend keer geteld is, dan zal het duizendste woord op de lijst ongeveer tien keer voorkomen in het tekstmateriaal. Het meest voorkomende woord zal ongeveer tienduizend keer voorkomen, en het tienduizendste woord in de ranglijst waarschijnlijk maar één keer.

In wiskundige termen gezegd: het rangnummer van het woord vermenigvuldigd met de frequentie van woord is gelijk aan de frequentie van het meest voorkomende woord. Of, hetzelfde maar dan anders gezegd: de frequentie van woord nummer x in de lijst is gelijk aan de frequentie van het meest voorkomende woord gedeeld door x. Als je daar een grafiek van maakt, levert dat een sierlijke ‘dalende, omgekeerd exponentiële’ lijn op: een lijn die eerst heel steil daalt, maar geleidelijk aan steeds horizontaler wordt.

Maar wil je die regelmaat van Zipf nóg duidelijker afbeelden, dan moet je een wiskundige kunstgreep toepassen: je neemt dan het logaritme van rangnummer en woordfrequentie.

In logaritmen geformuleerd ziet de wet van Zipf er zo uit: als je het logaritme van het rangnummer en het logaritme van de frequentie bij elkaar optelt, kom je altijd op hetzelfde getal uit (het is een constante). Als je de grafiek logaritmisch maakt (met als coördinaten: 1, 10, 100, 1.000, enz.), krijg je een prachtige rechte lijn die afloopt onder een hoek van 45 graden (zie de grafiek van Moby Dick).

Hoe verklaar je die schitterende regelmaat? Taalkundigen hebben zich daar het hoofd over gebroken. Ze hebben erop gewezen dat er altijd twee factoren in het geding zijn bij de woordkeuze. Als je iets zegt, wil je dat precies genoeg zeggen, maar je wilt ook niet meer moeite doen dan nodig is. ‘Heb je de voordeursleutel bij je?’ is duidelijker dan ‘Heb je je sleutel bij je?’, maar misschien is die laatste zin wel net zo begrijpelijk en in dat geval geldt: waarom zou je al die moeite doen om ‘voordeursleutel’ te zeggen, als ‘sleutel’ in de gegeven context net zo begrijpelijk is.

Dat spel van evenwicht, tussen dingen meer en minder precies formuleren, tussen meer en minder moeite doen om iets te zeggen, leidt tot een woordenschat waarin een klein aantal woorden veel wordt gebruikt en een groot aantal woorden weinig. Maar verklaart het ook exact de regelmaat van Zipf?

Woordklassen

Taalonderzoeker Sander Lestrade heeft computersimulaties gemaakt waarin die eigenschap van woorden (de betekenis varieert van algemeen tot specifiek) en het gebruik ervan heel ingenieus gesimuleerd worden. Hij laat zien dat die simulaties tot woordfrequenties leiden die niet overeenkomen met de wet van Zipf.

Vervolgens maakt hij, met andere, nóg complexere computersimulaties, aannemelijk dat er een tweede factor in het spel is: de woordenschat van een taal is altijd verdeeld over zeer verschillende woordklassen.

Alle talen hebben een aantal woordklassen (een stuk of tien), zoals zelfstandige naamwoorden, werkwoorden, voornaamwoorden (hij, die, wat), et cetera. De omvang van die woordgroepen varieert enorm. Het Nederlands heeft drie lidwoorden (de, het, een), maar honderdduizenden zelfstandige naamwoorden. Bovendien vormen de lidwoorden een gesloten klasse: over tien jaar hebben we nog steeds dezelfde drie lidwoorden als nu.

De zelfstandige naamwoorden vormen een open klasse: iedere dag worden er nieuwe zelfstandige naamwoorden bij verzonnen.

Als je de eigenschappen van die woordklassen meeneemt in de computersimulatie, en ze dus combineert met het gegeven dat mensen soms heel precies en soms heel vaag formuleren, dan rolt er een ‘tekst’ uit die precies de eigenschappen heeft van de wet van Zipf.

Is het raadsel daarmee opgelost? Dat zal moeten blijken. Omdat het om computersimulatie gaat, zal de discussie de komende tijd vooral gaan over de vraag in hoeverre Lestrades simulaties de natuurlijke taalprocessen goed simuleren. Want sommige eigenschappen van natuurlijke taal zitten er (nog) niet in. Bijvoorbeeld, het gegeven dat we in het dagelijks leven sommige specifieke dingen (zoals: een iPhone, een kraai) veel meer tegenkomen en benoemen dan andere specifieke dingen (zoals: een Daf, een roerdomp).