Ontmaskerd!

Een Italiaans computerprogramma destilleert uit teksten de verborgen kenmerken van de maker. Marek van der Jagt blijkt een pseudoniem van Arnon Grunberg.

Een computeranalyse van teksten van zestien Nederlandse auteurs wijst uit dat Arnon Grunberg schuilgaat achter het pseudoniem Marek van der Jagt. In oktober 2000 was deze krant al tot die conclusie gekomen, op basis van overeenkomsten in stijl en thematiek, en andere aanwijzingen (zoals het feit dat emails van Van der Jagt niet uit Wenen kwamen maar uit New York). Maar Grunberg bleef ontkennen. Dat is nu moeilijker, omdat de door Italiaanse wiskundigen ontwikkelde analysetechniek niet kijkt naar inhoud, betekenis of woordgebruik, maar uitsluitend naar de opeenvolging van symbolen (de letters) in de tekst (Physical Review Letters, 28 januari).

Dario Benedetto en zijn collega's van de Universiteit van Rome ontdekten dat elke auteur onbewust een soort vingerafdruk in zijn teksten achterlaat, die met de juiste wiskundige technieken kan worden achterhaald. Daarvoor maken zij gebruik van datacompressie-programma's, die bestanden heel efficiënt op de harde schijf wegschrijven waardoor ze minder ruimte innemen. Een bekend voorbeeld is het programma WinZip.

De analysemethode van de Italianen baseert zich op de ideeën van de Amerikaan Claude Shannon, die in de jaren veertig en vijftig de informatietheorie ontwikkelde. Shannon bedacht het begrip `entropie' om weer te geven hoeveel overtollige informatie een boodschap bevat. Een reeks van alleen maar A's heeft een lage entropie omdat het met een heel simpel programma kan worden gemaakt: `Herhaal A'. Een volkomen willekeurige rij letters heeft daarentegen een heel hoge entropie, omdat er geen andere keus is dan elke letter afzonderlijk te specificeren.

Gewone teksten bevinden zich tussen deze twee uitersten in. Maar het is principieel onmogelijk om voor een willekeurige tekst het kortste programma ook daadwerkelijk te vinden. Wel zijn er technieken die in de buurt komen. Dat zijn de bekende datacompressie-routines. Ze sporen steeds terugkerende patronen op in de rijen enen en nullen waarin een bestand op de harde schijf is vastgelegd. Als het bestand maar lang genoeg is, zullen dergelijke compressieroutines de theoretische limiet de entropie heel dicht benaderen.

pirandello

Daar maken de Italianen gebruik van. Zij redeneerden dat een computerprogramma dat is geoptimaliseerd om een tekst van de Siciliaanse schrijver Luigi Pirandello zo goed mogelijk te comprimeren, het iets minder goed zal doen bij een tekst van bijvoorbeeld Dante. Het verschil wordt uitgedrukt als een relatieve entropie. Wanneer eenmaal voor verschillende auteurs de optimale compressieroutines zijn bepaald, kan van een gegeven tekst van een onbekende auteur met elk van die routines de relatieve entropie worden bepaald: de laagste waarde geeft dan aan door welke auteur de betreffende tekst is geschreven.

Om die truc in de praktijk te testen verzamelden ze negentig werken van twaalf Italiaanse schrijvers en legden deze aan hun programma voor. Dat wist 84 van de 90 voorgelegde werken correct toe te kennen, een succespercentage van 93%. Bij vijf van de zes verkeerde toewijzingen identificeerde het programma de werkelijke auteur als de op één na meest waarschijnlijke kandidaat.

Dit overtuigende resultaat maakte nieuwsgierig hoe het programma het zou doen met teksten in een andere taal. De methode is immers onafhankelijk van syntax of grammatica en zelfs van het gebruikte alfabet. Deze krant nam contact op met de Italiaanse onderzoekers en legde hen een actueel probleem voor uit de Nederlandse literaire wereld: de discussie rondom de identiteit van de auteur Marek van der Jagt na het uitkomen van diens eerste roman `De geschiedenis van mijn kaalheid'. Het computerprogramma zou de vingerafdruk van Grunberg in het werk van Van der Jagt moeten kunnen detecteren.

De Italianen verleenden welwillend hun medewerking aan dit extra onderzoek. Zij ontvingen bij wijze van referentie van zestien Nederlandse auteurs één tekst met een gemiddelde lengte van zo'n twintig pagina's. Daarnaast ontvingen zij zeven anonieme teksten die zij met hun programma op naam moesten brengen. Als extraatje werd ook nog een stuk opgestuurd van Marek van der Jagt dat op 22 juli 2000 verscheen op de Opiniepagina van NRC Handelsblad, al lieten de Italianen daarvan op voorhand al weten dat het waarschijnlijk te kort zou zijn voor een betrouwbare analyse.

Twee weken later volgde een email uit Rome met de analyseresultaten: vijf van de zes auteurs waren correct geïdentificeerd. De hoofdstukken uit `De geschiedenis van mijn kaalheid' waren zonder enige twijfel toegeschreven aan Grunberg. Alleen de toewijzing van het opiniestuk was zoals verwacht onzeker: naast opnieuw Grunberg werden ook Harry Mulisch, Renate Dorrestein en Ronald Giphart als mogelijke auteurs genoemd.

De uitkomst bevestigt dus het vermoeden: Arnon Grunberg is Marek van der Jagt. En ditmaal is die conclusie gebaseerd op volstrekt objectief onderzoek. Benedetto en collega's spreken geen woord Nederlands en hadden dus geen enkel houvast aan de inhoud van de teksten. Ze wisten van tevoren ook niet wie de schrijvers ervan waren. Zij hebben uitsluitend gekeken naar de opeenvolging van de vele duizenden enen en nullen waar de in de computer opgeslagen tekst uit is opgebouwd. Daar ligt blijkbaar voor elke individuele auteur een soort vingerafdruk in besloten. Volgens de onderzoekers geldt dat overigens ook voor andere reeksen symbolen zoals de basenvolgorde in het DNA, de fluctuaties van aandelenkoersen of iemands hartslag.

Het is onwaarschijnlijk dat de gevonden overeenkomst tussen het werk van Van der Jagt en Grunberg op toeval berust. Maar om die kans helemaal uit te sluiten zouden nog meer teksten van Van der Jagt moeten worden vergeleken met het werk van nog meer schrijvers. Het is immers mogelijk dat de echte Van der Jagt schuilgaat onder auteurs van wie het werk nu niet in de analyse was betrokken.

De Italianen keken ook naar een tekst van Willem Frederik de Jonge, evenals Marek van de Jagt een mysterieuze nieuwe Nederlandse auteur. De onderzoekers vonden daarin geen overeenkomsten met Grunberg. Ze konden de tekst van De Jonge niet met zekerheid tot een auteur herleiden. Van Beijnum en in iets mindere mate Dorrestein kwamen nog het dichtst in de buurt.