De hitlijst van de woorden

Het simpel tellen van de meest voorkomende woorden in de Nederlandse taal onthult veel over onze cultuur.

‘Eh’ is in gesproken Nederlands het meest voorkomende woordje, in geschreven Nederlands is dat: ‘de’. Daarna volgen: ‘en’, ‘in’, ‘van’ en ‘op’. Nummer 100 in de lijst is: ‘tussen’. Nummer 500: ‘muziek’.

Eindelijk is er nu een woordenboek dat de vijfduizend meest gebruikte woorden van het Nederlands behandelt. Niet alfabetisch, maar gerangschikt op frequentie. Dat begint met ‘de’ en eindigt met (de laatste 5 van de 5.000): ‘vermaken’, ‘ontbijten’, ‘überhaupt’, ‘telefoneren’ en ‘stenen’.

Het boek, tevens cd-rom, werd vervaardigd door twee medewerkers van het Instituut voor Nederlandse Lexicologie in Leiden en maakt deel uit van een internationale reeks waarin al eerder dergelijke woordenboeken voor tien andere talen zijn verschenen. Bij elk woord geeft het woordenboek de vertaling (in het Engels) én een pakkende voorbeeldzin. Dat is handig voor mensen die Nederlands willen leren. Want met deze vijfduizend woorden kom je een heel eind: ze dekken 95 procent van een willekeurige tekst of gesprek. De overige pak ’m beet tweehonderdduizend woorden van het Nederlands zijn goed voor de resterende 5 procent.

Daarnaast is dit frequentiewoordenboek interessant voor mensen die al lang Nederlands kennen. De frequentie van onze woorden zegt iets over hoe we naar de wereld om ons heen kijken. Wat is het meest genoemde seizoen? ‘Zomer’. Het meest gebruikte telwoord? ‘Twee’. De meest gebruikte kleur? ‘Rood’. Na ‘rood’ volgen ‘zwart’ en ‘wit’, daarna komen ‘groen’ en ‘geel’ en dan pas: ‘blauw’.

‘Groot’ komt veel vaker voor dan ‘klein’, net zoals ‘lang’ veel meer gebruikt wordt dan ‘kort’. De drie meest voorkomende woorden voor lichaamsdelen zijn (in deze volgorde): ‘hand’, ‘oog’, ‘hoofd’. Zo valt er veel te beleven in dit woordenboek, waarin ook veel lijstjes van subcategorieën zijn opgenomen.

„Het was voor het eerst dat we zo’n type woordenboek maakten”, zegt Tanneke Schoonheim, die het boek samen met Carole Tiberius samenstelde. „Voor ons was het ook heel spannend wat er uit zou komen.”

Het eerste probleem was: hoe tel je die woorden? Uiteraard heb je daar een grote hoeveelheid tekst voor nodig. Die was er: een zeer gevarieerd samengesteld ‘tekstcorpus’ van 300 miljoen woorden, met daarin romans (negenhonderd), krantenartikelen, webmateriaal en ook nog eens zo’n 9 miljoen woorden aan gesproken Nederlands: gesprekken, debatten en lezingen, die helemaal zijn uitgeschreven en dus doorzocht kunnen worden.

Wulkenprobleem

Als je gewoon telt hoe vaak een woord in dat materiaal opduikt, loop je het gevaar dat zich het zogenaamde ‘wulkenprobleem’ voordoet. Een wulk is een in zee levende kieuwslak. Als er in je materiaal één tekst zit die alleen maar over wulken gaat, dan wordt de frequentie van het woord ‘wulk’ daardoor enorm vertekend. Om dat te voorkomen is er in dit woordenboek voor een andere manier van tellen gekozen. Het materiaal werd opgedeeld in fragmenten van 2.000 woorden, vervolgens moest de computer nagaan: in hoeveel procent van die fragmenten komt een bepaald woord voor?

De vijfduizend meest voorkomende woorden scoorden een percentage dat tussen 99,9 en 1 procent lag. Er was geen enkel woord dat 100 procent scoorde. Ook ‘de’ niet. Dat scoorde 99,92 procent. Blijkbaar zijn er fragmenten van tweeduizend woorden waarin geen ‘de’ voorkomt?

Carole Tiberius lacht als ze die vraag krijgt. „Ja, dat zijn van die dingen die nu gaan opvallen, nu het klaar is. Ik heb er geen duidelijke verklaring voor. Ik kan alleen zien dat dat aan het krantenmateriaal en het webmateriaal ligt: daar kreeg ‘de’ geen 100 procent.”

Er is nog iets geks aan de hand met dit woordenboek. De drie meest gebruikte dierenwoorden zijn: ‘hond’, ‘vis’ en ‘pad’. Blijkbaar gaat het goed met de pad in Nederland? Zou kunnen, zeggen de maaksters, maar ‘pad’ scoort hier vooral zo hoog omdat dat woord ook in een andere betekenis gebruikt wordt: een smalle weg. Er is voor dit woordenboek alleen op de vorm geteld. Verder uitsplitsen naar betekenis was te ingewikkeld geweest, want dan had de computer ook naar de context van ieder woord moeten kijken: wat voor woorden staan eromheen en wat zegt dat over de betekenis van dat woord. De software daarvoor is nog in ontwikkeling.

Zodoende is ‘pad’ nu per ongeluk een veel voorkomend dierenwoord geworden. Net als ‘muis’ en ‘slang’ trouwens.

In dit woordenboek wordt verder, voor het eerst, een onderverdeling gemaakt naar genres. Het boek geeft eerst de basiswoordenschat van het Nederlands: de duizend meest gebruikte woorden. De overige vierduizend woorden zijn uitgesplitst naar het genre waar ze het meest in werden aangetroffen: spreektaal, fictie, krantenmateriaal of internet.

Hoogfrequente woorden die typerend zijn voor gesproken Nederlands zijn dan uiteraard de zogenaamde tussenwerpsels (zoals ‘eh’, ‘hè’, ‘hoor’, ‘ah’ en ‘oké’), maar ook woorden als ‘snappen’, ‘ontzettend’, ‘grappig’. En, toch wel verrassend: ‘vrijdagavond’ en ‘donderdagavond’.

Ook verrassend is de lijst van woorden die vooral in fictie veel voorkomen. De eerste vijf in die lijst zijn: ‘blik’, ‘schouder’, ‘raam’, ‘zwijgen’, ‘stoel’. Die vormen met elkaar al bijna een scène in een boek: ‘Zwijgend zat ze op een stoel voor het raam. Ik wierp een blik op haar schouders.’

Er blijkt al met al een heel repertoire aan typische fictiewoorden te bestaan: ‘plotseling’, ‘glimlachen’, ‘ogenblik’, ‘fluisteren’, ‘gauw’, ‘werpen’, etcetera.

Typische krantenwoorden zijn: ‘procent’, ‘minister’, ‘wedstrijd’, ‘seizoen’, ‘Europees’. Kranten doen naar verhouding meer met zelfstandige naamwoorden, terwijl fictie naar verhouding meer werkwoorden bevat.

En dan is er nog de lijst van woorden die vooral op het internet gebruikt worden. Daar vallen de spreektaalwoorden op die het op internet beter doen dan in echte spreektaal: ‘jouw’, ‘tja’, ‘maja’, ‘hoi’, ‘eentje’, ‘super’, ‘tof’, ‘haha’. ‘Maja’ is trouwens een woord dat nog in geen enkel ander Nederlands woordenboek staat.

Ook veel voorkomend op het web is het woordje ‘cc’. Is dat de ik-vorm van het moderne werkwoord ‘cc-en’ (een kopie van een mail naar iemand anders sturen)? De voorbeeldzin die erbij staat, luidt: ‘Deze pot met een inhoud van 500 cc is uitermate geschikt voor het verpakken van o.a. soepen of vlees’. ‘Cc’ als inhoudsmaat? Carole Tiberius: „Ik dacht ook eerst dat het vooral om de e-mail-betekenis ging. Maar toen heb ik een steekproef van voorbeelden genomen en zag ik al snel dat de betekenis van inhoudsmaat overheerst. Moeders die over de inhoud van de fles voor hun baby schrijven, maar ook veel mensen die over motoren schrijven. Misschien heeft dat toch iets te maken met de opbouw van het corpus, staan er toevallig veel teksten met cc in.”

Dan zou er dus toch nog een soort wulk dit woordenboek zijn binnengeslopen, in de vorm van ‘cc’? Tiberius: „Cc is het woordje dat ik er bij een volgende druk liever uit zou laten. Het roept meer vragen op dan dat het vragen beantwoordt.”

    • Berthold van Maris