Wie schrijft hier?

Een paar kenmerken van handschriften zijn genoeg om de schrijver te identificeren.

De belangstelling voor identificatie neemt toe.

Drie regeltjes handgeschreven tekst heeft het computerprogramma nodig dat Marius Bulacu en Lambert Schomaker ontwikkelden. Zo’n 200 letters. Daar hoeft niet van tevoren door mensen gedetailleerd en tijdrovend aan geknipt of gerekend te worden. De computer bekijkt het beschreven velletje papier in zijn geheel en berekent dan met een betrouwbaarheid van 85 tot 87 procent wie van 900 bij de computer bekende schrijvers de tekst heeft opgeschreven.

Het is de grootste dataset waar dit soort onderzoek tot nu toe op is losgelaten, en met goede resultaten. „Voor een computer is het veel moeilijker dan voor een mens om te bepalen of twee handschriften op elkaar lijken”, zegt Bulacu, die vandaag op zijn onderzoek hoopt te promoveren aan de afdeling Kunstmatige Intelligentie van de Rijksuniversiteit Groningen. Mensen kunnen zelf ook niet eenvoudig onder woorden brengen waar zulke overeenkomsten hem in zitten, ze ‘zien het gewoon’. Bulacu en zijn collega’s hebben er algoritmes voor ontwikkeld.

Er zijn verschillende soorten handschriftenonderzoek waarbij gebruik wordt gemaakt van computers, legt Bulacu uit. Aan de ene kant heb je handschriftherkenning, waarin de computer leert om geschreven tekst te ‘lezen’: wat staat hier? Daarbij geef je de computer veel verschillende voorbeelden van hoe mensen bijvoorbeeld de letter K schrijven, je zegt erbij dat het de K is, en zo leert de computer de K (en op dezelfde manier ook alle andere letters) te herkennen.

Aan de andere kant heb je schrijver-identificatie: wie heeft dit geschreven? Daarbij zoekt de computer de onbekende schrijver van een handgeschreven tekst in een verzameling teksten waarvan wél bekend is wie ze heeft geschreven. De onderzoeker moet daarvoor kenmerken van handschriften beschrijven die de ene schrijver van de andere onderscheiden en die in computeralgoritmes vangen, dus aan de computer vertellen waar die op moet letten. Een technische klus. „En dat is wat ik gedaan heb”, zegt Bulacu.

Er is meer onderzoek gedaan naar handschriftherkenning dan naar schrijveridentificatie, zegt Bulacu, omdat handschriftherkenning breder toepasbaar is. „Maar de laatste tijd neemt de belangstelling voor schrijveridentificatie toe, bijvoorbeeld in forensisch onderzoek.

In het algemeen is de belangstelling toegenomen om mensen te kunnen identificeren aan de hand van biometrische kenmerken, zoals vingerafdrukken en irisscans. Ik heb ook het gevoel dat de anthraxbrieven van enkele jaren geleden het onderzoek op dit gebied hebben gestimuleerd.”

Bulacu combineerde in zijn onderzoek twee kenmerken van handschrift. Ten eerste de schuinheid, kromming en ronding van het schrift, die bepaald worden door hoe iemand zijn pen vasthoudt, en ten tweede de specifieke lettervormen die iemand geleerd heeft te gebruiken.

Het gaat bij dat laatste niet om hele letters, want dat is lastig te programmeren, legt Bulacu uit. De computer weet nu eenmaal niet waar een letter begint en eindigt – handschriftherkenning, lezen wat er staat, is immers een heel andere tak van sport.

Dus liet hij het computerprogramma de tekst in lettervormen knippen in de dalletjes waar de pen de onderkant van een regel raakt. „Dan knip je wel bijvoorbeeld de letter v in tweeën, maar dat geeft niet, want je wilt niet de inhoud van de tekst achterhalen maar de schrijver. En de schrijverskenmerken blijven op deze manier nog bewaard. Wij vermijden de inhoud van de tekst volledig, wij richten ons puur op de kans dat iemand de tekst geschreven heeft. Je kunt dat goed onderscheiden: als iemand een raar handschrift heeft, is het bijvoorbeeld moeilijk om te lezen wat er staat, maar gemakkelijk om de schrijver te identificeren.”

De lettervormenmethode was al door Schomaker ontwikkeld, Bulacu voegde er de schuinheid van het handschrift als extra kenmerk aan toe én toonde aan dat de combinatie van schuinheid en lettervormen de beste resultaten oplevert: een correcte herkenning van rond de 86 procent. De kans dat de correcte schrijver in de door de computer bepaalde toptien zat, lag rond de 96 procent.

„De computer geeft in feite een ‘hitlist’ terug”, zegt Bulacu. „De computer kan grote databases snel op oppervlakkige statistische overeenkomsten doorzoeken, een mens kan daarna weer gedetailleerder verder kijken. Je kunt het vergelijken met Google, als je daar iets intikt, is ook niet altijd de bovenste link die je terugkrijgt degene die je nodig hebt.”

Inmiddels is gebleken dat de methode voor schrijveridentificatie ook bruikbaar is in andere talen en in historische documenten.