Hoe kom je erachter wie de auteur is van een tekst? Die vraag werd op 5 september opeens weer actueel, toen The New York Times een anoniem opiniestuk publiceerde van een hoge conservatieve functionaris in de regering-Trump, die beweerde dat mensen achter de schermen hard werken om de schadelijke impulsen van de president te bedwingen. „Amerikanen moeten weten dat er volwassenen aanwezig zijn”, schreef de zelfbenoemd vertegenwoordiger van het „stille verzet” in de regering.
De dagen erna buitelden de hoge Amerikaanse functionarissen over elkaar heen om te ontkennen dat zij het artikel hadden geschreven. En op sociale media werd druk gespeculeerd over politici die weleens het weinig frequente woord lodestar (leidster, poolster) hadden gebruikt, zoals de anonymus deed. Maar kan één woord een auteur verraden? Kan iemand niet expres een woord hebben gebruikt dat iemand anders vaker heeft gebruikt? Hoe wérkt het eigenlijk om de auteur van een tekst te zoeken; bestaan daar betrouwbare methoden voor?
Het teleurstellende deel van het antwoord op die vraag publiceerde NRC al eerder: er bestaan geen methoden die honderd procent betrouwbaarheid geven, en experts achten het zeer onwaarschijnlijk dat de auteur van het anonieme New York Times-artikel door tekstanalyse ontmaskerd zal worden. Politici hebben vaak ghostwriters, ze schrijven vaak samen, er is geen goede verzameling van vergelijkingsteksten – er is in dit geval geen beginnen aan.
Maar de vraag blijft knagen: er zijn toch weleens schrijvers ontmaskerd door tekstanalyse, hoe werkte dát dan? Stoppen auteurs elementen in hun tekst waarvan ze zichzelf niet eens bewust zijn? Welke dan? Aan dat soort vragen blijkt een nog altijd bloeiend vakgebied te werken, dat eind negentiende eeuw is ontstaan en dat al complexer werd voor het goed en wel op gang was gekomen.
Ruitjespapier
Het wetenschappelijke startpunt van de stylometrie is een artikel van de Amerikaan Thomas Corwin Mendenhall (1841-1924), autodidact natuurkundige en meteoroloog, in 1887 gepubliceerd in het tijdschrift Science (ja, dat bestond toen al; het is in 1880 opgericht). Mendenhall reageerde daarin op een suggestie die hij bij de Britse wiskundige Augustus de Morgan (1806–1871) had gelezen: dat het misschien mogelijk was om de schrijver van een boek, gedicht of toneelstuk te identificeren aan de hand van de gemiddelde woordlengte in zijn geschriften.
/s3/static.nrc.nl/images/gn4/stripped/data35932022-e1b330.jpg|https://images.nrc.nl/KEI8ovpvjRcXZNerqJu5Yqfv7NA=/1920x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data35932022-e1b330.jpg|https://images.nrc.nl/lKQ8zBUQcjq7Sv9v59iy18fo_6c=/5760x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data35932022-e1b330.jpg)
Goed idee, dacht Mendenhall, maar hij kreeg zelf een beter idee, en het was „nauwelijks bewerkelijker”. Tel in een steekproef van de tekst alle woorden van één letter, twee letters, drie letters, enzovoorts. Zet de resultaten in een grafiek: het aantal letters op de horizontale as en het aantal keer dat woorden van die lengte voorkomen op de verticale as. Zo’n grafiek, beweerde Mendenhall, is uniek voor een schrijver; het is een „karakeristieke kromme”. Hij vergeleek die grafieken zelfs met het emissiespectrum in de natuurkunde, dat de aanwezigheid van bepaalde atoomsoorten verraadt.
Mendenhalls artikel bevat een aantal van die schrijversgrafieken, duidelijk met de hand getekend op ruitjespapier (in zijn instructies geeft hij zelfs een definitie van ruitjespapier). De grafieken van de romans Oliver Twist (Charles Dickens, 1838) en Vanity Fair (William Makepeace Thackeray, 1848) lijken erg op elkaar, en verschillen op het oog flink van die van het werk van economisch filosoof John Stuart Mill (1806-1873).
Op het óóg, inderdaad. Mendenhall doet nog geen formele toetsen om te kijken of teksten van auteurs statistisch van elkaar verschillen. Hij onderbouwt ook zijn overtuiging niet dat honderdduizend woorden een noodzakelijk en voldoende aantal is om de „karakteristieke kromme” van een auteur te kunnen tekenen. Maar hij maakt aannemelijk dat schrijvers verschillende woordlengtepatronen kunnen hebben – dat dat zo’n element is dat schrijvers onbewust in hun werk stoppen.
Een gruwelijke klus
Mendenhalls methode van ‘karakteristieke krommen’ is verschillende keren toegepast. In 1901 publiceerde hij zelf enkele grafieken waaruit hij concludeerde dat Francis Bacon (1561-1626) niet de auteur van de toneelstukken van Shakespeare (1564-1616) kon zijn – een theorie die sinds het einde van de 18de eeuw rondgaat – maar Christopher Marlowe (1564-1593) eventueel wel. (Een filantroop had twee vrouwen betaald om bijna twee miljoen woorden van verschillende schrijvers te tellen, een gruwelijke klus die maanden in beslag nam.) En in 1963 combineerde een Amerikaanse statisticus, Claude Brinegar, Mendenhalls grafiekenmethode met statistische tests om aan te tonen dat tien brieven van ene Quintus Curtius Snodgrass uit 1861, toegeschreven aan Mark Twain (1835-1910), niet van Twain waren. Dat is later ook onafhankelijk bevestigd.
In de zestig jaar tussen Mendenhall en Brinegar werden veel woordlengtes, frequenties en zinslengtes geteld, maar er waren amper stylometrische successen. Tot de stylometrie in 1964 een nieuwe wending nam. Twee Amerikanen, Frederick Mosteller en David Wallace, besloten zich te concentreren op functiewoorden. Voorzetsels, voegwoorden, lidwoorden: functiewoorden zijn woorden die de woorden met inhoudelijke betekenis voor een tekst, dus de werkwoorden of zelfstandig naamwoorden die naar iets in de werkelijkheid verwijzen, tot zinnen aan elkaar plakken.
Mosteller en Wallace analyseerden de Federalist Papers, 85 eind-achttiende-eeuwse essays over de Amerikaanse grondwet van verschillende auteurs. De onderzoekers ontdekten dat een van de auteurs ongeveer 4,5 keer zo vaak het woordje upon gebruikte als een andere en konden onder meer op basis daarvan de auteur van 12 betwiste essays identificeren. Juist in veelgebruikte functiewoorden is de onbewuste handtekening van de auteur zichtbaar, concludeerden Mosteller en Wallace.
Na dat succes opperden steeds nieuwe onderzoekers steeds nieuwe taalelementen waarmee je iemands schrijfstijl zou kunnen kwantificeren: woordlengtes, functiewoorden, delen van woorden, letterreeksen, woordparen, woordgroepjes, spelfouten, leestekens – wat al niet. Eind jaren 90 verzuchtte een van hen al dat er zo’n duizend waren geprobeerd. Sindsdien zijn er bijgekomen.
Ook kwamen er vanaf de jaren 80 en 90 steeds nieuwe statistische technieken bij. Daarmee kun je de getelde stijlelementen bijvoorbeeld zo transformeren dat je de geanalyseerde teksten in een mooie puntenwolk kunt weergeven, met teksten die op elkaar lijken het dichtst bij elkaar. Je kunt dan alleen niet meer gemakkelijk in gewonemensentaal uitdrukken waarin de onderzochte teksten dan op elkaar lijken of van elkaar verschillen. Als ze verschillen, is dat op een abstracte statistische afstandsmaat die afhangt van wat je aan potentieel onderscheidende input-variabelen hebt gekozen. En er bestaat geen consensus over de beste methode – noch over de beste input-elementen, noch over de beste output-genererende algoritmes.
Marek van der Jagt
Dat is de staat waarin het vakgebied nu verkeert: een eind verwijderd van de aandoenlijke, heldere Mendenhall-grafieken waaraan je kon zien dat Shakespeare meer woorden van vier letters gebruikte dan Dickens. Af en toe een kwalijke dwaling, zoals de zogeheten CUSUM-methode, gebaseerd op onder meer het tellen van woorden van twee of drie letters en woorden die met een klinker beginnen. Deze methode is wel in rechtszaken gebruikt, maar de wetenschappelijke consensus is dat hij niet werkt.
En met enige regelmaat een succesvolle ontmaskering. Die successen halen vaak het nieuws. In 1996: journalist Joe Klein als de anonieme auteur van sleutelroman Primary Colors over Bill Clinton – door Donald Foster, de Shakespeare-kenner die ook de identiteit van de Unabomber wist te achterhalen. In 2002: Arnon Grunberg als auteur van de romans van Marek van der Jagt – op verzoek van NRC, door Italiaanse onderzoekers die een nieuwe datacompressiemethode hadden ontwikkeld. In 2017: Domenico Starnone als meest waarschijnlijke schrijver van de succesvolle Elena Ferrante-romans – door samenwerkende onderzoekers uit verschillende landen.
Maar het zoeken is nog steeds naar de heilige graal van de stylometrie: een computerprogramma waar je tekst invoert, waarna de auteur er vanzelf uit rolt.
/s3/static.nrc.nl/images/gn4/stripped/data35961217-99b9d4.jpg|https://images.nrc.nl/cTUTywaSqyWuiTDikkLODJRVmQg=/1920x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data35961217-99b9d4.jpg|https://images.nrc.nl/7VBsenK_IG7DGRKA_ksiDXccQXE=/5760x/filters:no_upscale()/s3/static.nrc.nl/images/gn4/stripped/data35961217-99b9d4.jpg)