Fysici tellen woorden om vingerafdruk van schrijvers te vinden

Het werk van schrijvers heeft een unieke vingerafdruk. En die is gemakkelijk af te nemen. Woorden tellen is het enige wat ervoor nodig is. Meer specifiek: de woorden die maar één keer in een stuk tekst voorkomen. De relatie tussen het aantal van deze ‘unieke’ woorden en de lengte van een tekst is voor iedere schrijver uniek. Dat zeggen fysicus Sebastian Bernhardsson en collega’s van de Zweedse Umea University (New Journal of Physics 11, 2009).

Het statistisch en mathematisch analyseren van teksten kent een lange traditie. Zo verwijzen Bernhardsson en zijn collega’s naar het werk van de linguïst George Zipf. Die liet in 1935 zien dat de frequentie van veelgebruikte woorden een trend volgt. In een doorsnee Engelse tekst komt bijvoorbeeld het woord ‘the’ het vaakst voor (7 procent van alle woorden). Het op één na vaakst gebruikte woord, ‘of’, komt daarna twee keer zo weinig voor (3,5 procent) en woord nummer drie, ‘and’, drie keer zo weinig (circa 2,5 procent) enzovoorts.

Bernhardsson en collega’s keken juist de andere kant op – naar de staart van de woordverdeling waar de woorden zitten die zelden worden gebruikt. En juist in die staart zitten verschillen die onderscheidend zijn, concluderen zij.

De Zweden analyseerden het werk van Herman Melville, Thomas Hardy en D.H. Lawrence. Het ligt voor de hand, en dat was ook zo, dat het aantal unieke woorden groeit met de lengte van een tekst. Maar de mate waarin was voor elk van die drie auteurs verschillend. Ofwel: het aantal unieke woorden in hun teksten volgde steeds een voor elk van hen unieke groeicurve.

Interessant is dat die groeicurve niet significant verschilde per boek. Hij oogde steeds hetzelfde, ook als hapsnap allerlei stukken uit boeken en brieven werden gecombineerd tot een tekst. Dat druist in tegen het idee dat het beschrijven van nieuwe omgevingen en gebeurtenissen het gebruik van unieke woorden zou uitlokken.

De fysici suggereren dat elke auteur put uit een eigen, virtueel, ‘metaboek’. De woordenschat daarin zou samenhangen met achtergrond, opleiding en persoonlijkheid van de auteur.

Margriet van der Heijden

    • Margriet van der Heijden