Software kan anonieme auteur ontmaskeren

Stijlvergelijking Er zijn pseudoniemen van romanschrijvers ontmaskerd door vergelijking met bekende teksten. Maar voor ontmaskering van de auteur van het anonieme opiniestuk over het Witte Huis ontbreken waarschijnlijk voldoende teksten van de kandidaten, zo vermoedt tekst-statisticus Arjuna Tuzzi.

Wie is de anonieme auteur van het recente opiniestuk in The New York Times, de hoge medewerker in het Witte Huis die, samen met anderen, de „minder goed doordachte impulsen” van president Donald Trump probeert te dwarsbomen? Op sociale media is een klopjacht aan de gang; in het Witte Huis ongetwijfeld ook. Maar experts op het gebied van de stylometrie en tekstanalyses betwijfelen sterk of die ergens toe leidt. Want waarschijnlijk zijn er niet genoeg teksten van de auteur van het opiniestuk die als vergelijkingsmateriaal kunnen dienen. En we weten ook niet of het artikel maar één auteur heeft.

Dat mailt statisticus Arjuna Tuzzi van de universiteit van Padua desgevraagd, na overleg met de taalkundigen Michele Cortelazzo (Padua) en George Mikros (Athene). Zij onderzoeken samen het werk van de succesvolle Italiaanse romanschrijver Elena Ferrante. Vorig jaar suggereerden ze dat Domenico Starnone zou kunnen schuilgaan achter dat pseudoniem, op basis van een analyse die onder meer gebaseerd was op woordfrequenties.

Italiaans computerprogramma ontmaskert pseudoniem van Arnon Grunberg

Om een stylometrische analyse te kunnen doen heb je twee dingen nodig, legt Tuzzi uit. Ten eerste: een goede verzameling teksten van alle kandidaat-schrijvers, inclusief de daadwerkelijke auteur. En dan van elke kandidaat genoeg teksten, en teksten die lang genoeg zijn. Die teksten moeten ook zo homogeen mogelijk zijn als het gaat om bijvoorbeeld genre, onderwerp en tijdsperiode. Ten tweede: een goede methode om twee teksten te kunnen vergelijken, én een goed algoritme om die paarsgewijze vergelijkingen te combineren en te testen.

Over de betrouwbaarste methode om teksten te vergelijken en die vergelijkingen te combineren, en over de beste software, is momenteel veel discussie in het veld, zegt Tuzzi, dat zich razendsnel ontwikkelt. „Het belangrijkste probleem is dat niet alle maten een vaste, bekende foutenmarge hebben. Bij DNA-tests is het bijvoorbeeld zo dat er een unieke wederzijde relatie is tussen een persoon en zijn of haar DNA. En een DNA-test geeft altijd dezelfde uitkomst, onafhankelijk van het lab dat de test uitvoert.” Dat is niet zo bij het zoeken naar de auteur van een tekst.

En bij het New York Times-stuk heb je nóg een probleem, zegt Tuzzi: „Omdat je aanneemt dat de auteur een beroemde, bekende, ervaren politicus is, is het erg moeilijk om een verzameling echte teksten van hem of haar te vinden, want de meeste politici hebben ghostwriters. En ze werken ook vaak samen aan teksten.” Misschien is dat laatste bij het opiniestuk ook wel gebeurd.

    • Ellen de Bruin