Computer gevoerd met kilometers handschrift

Geschiedenis Archieven hebben vele kilometers aan handgeschreven teksten. Computers kunnen die steeds beter lezen.

Illustratie Jasmijn van der Weide

Een handschrift ontcijferen. Dikke notarisboeken uit de zeventiende en achttiende eeuw of kilometers VOC-administraties doorploegen. Dat hoeft (straks) niet meer. Het enige dat nog gedaan moet worden is een zoekopdracht intikken, bijvoorbeeld bij de onlangs gelanceerde website zoekintranscripties.nl. Daarna leest een computer in een mum van tijd miljoenen getranscribeerde teksten en filtert hij de documenten met de gewenste woorden eruit. Het bespaart maanden of zelfs jaren onderzoekstijd en iedereen kan er gebruik van maken, ook de amateurhistoricus.

Automatische handschriftherkenning, een vorm van kunstmatige intelligentie, zorgt voor een archiefrevolutie, stelt historicus Nico Vriend van het Noord-Hollands Archief. Samen met het Nationaal Archief en andere regionale historische centra was Vriend betrokken bij het project ‘De ijsberg zichtbaar maken’. „Het was al lang een droom van archieven om de kilometers handgeschreven bronnen snel leesbaar te maken. Met drukletters was dat al langer mogelijk, denk aan Google Books. Ongeveer twintig jaar geleden hebben we al eens een poging gedaan om handschriften door de computer te laten transcriberen en om te zetten in tekst die een machine kan lezen. Dat lukte niet goed.”

Maar de ontwikkelingen gaan snel. In 2018 deed het Noord-Hollands Archief mee aan een pilot van Transkribus, een door de universiteit van Innsbrück ontwikkeld en met EU-gelden gefinancierd platform voor tekstherkenning. „Toen hadden we een foutmarge van 20 procent, en dat vonden we toen al heel wat”, vertelt Vriend. Na afronding van ‘De ijsberg’, dat een jaar later begon, ligt de foutmarge veel lager. „5 tot 10 procent. Dat wil zeggen: van elke honderd getranscribeerde karakters zijn er gemiddeld 93 goed.”

Onbekende aardbevingen

De vooruitgang is een gevolg van het veelvuldig ‘trainen’ van de computer, legt Vriend uit. „Een groep medewerkers heeft eerst in ruim een half jaar tijd zes-, zevenduizend pagina’s van het VOC-archief en ons notarieel archief uit de negentiende eeuw correct getranscribeerd en daarmee de computer gevoed zodat hij op scans van de documenten steeds beter karakters en verschillende handschriften ging herkennen.” Het bleek dat de computer snel leert, maar dat het veel extra moeite kost om hem een tekst perfect te laten lezen. Vriend: „Daarom hebben wij en het Nationaal Archief gekozen voor kwantiteit in plaats van kwaliteit.”

Deze aanpak heeft al resultaten opgeleverd. In de getranscribeerde VOC-archieven werden bijvoorbeeld in brieven en rapporten beschrijvingen van 120 aardbevingen gevonden die tussen 1674 en 1786 hebben plaatsgevonden. Sommige daarvan waren nog niet bekend.

Gerhard de Kok, onderzoeker aan het Internationaal Instituut voor Sociale Geschiedenis, is al een paar maanden bezig met de transcripties. „Ik kan een beetje programmeren en heb vorig jaar al een eigen zoekmachine gemaakt die ook spellingvariaties meeneemt.” Het eerste wat hij deed was controleren of hij voor bepaalde artikelen over koloniale geschiedenis belangrijke documenten had gemist. „Ik denk dat veel van mijn collega’s dat ook hebben gedaan. Ik vond wel nieuwe documenten, maar gelukkig hoefde ik mijn conclusies niet aan te passen.” Een echte ontdekking in archieven van de West-Indische Compagnie waren loongegevens van werknemers die geholpen hadden om een door piraten veroverd schip te heroveren.

Vergaderen over koloniën

De beschikbaar gekomen data maken ook nieuwe types van onderzoek mogelijk, zegt De Kok. „Denk aan kwantitatief onderzoek zoals tellen hoe vaak de directie van de WIC vergaderde over bepaalde Nederlandse koloniën. Handmatig is dat nauwelijks te doen, want de namen van de koloniën komen tienduizenden keren voor.” Hij gebruikte de teksten ook om een neuraal netwerk te trainen dat verbanden tussen woorden legt en herkent. „Een eenvoudig voorbeeld: het woord ‘schilderij’ uit de notariële archieven van het Stadsarchief Amsterdam, dat met hulp van vrijwilligers teksten heeft getranscribeerd, associeert het model niet alleen met genres als ‘zeestuck’ en ‘batalie’, maar ook met ‘verguld’ en ‘lyst’.”

Illustratie Jasmijn van der Weide

Deze aanpak kan interessante verbanden en inzichten opleveren, vindt ook Erika Kuijpers, universitair docent vroegmoderne Nederlandse geschiedenis aan de Vrije Universiteit in Amsterdam. Zij onderzoekt samen met Judith Pollmann van de Universiteit Leiden aan de hand van driehonderd kronieken hoe tussen 1500 en 1850 nieuwe kennis werd ontvangen en verspreid.

„Daarvoor zit in ons team een linguïst, die aan de hand van taalkundige expressies onderzoek doet naar de mate van zekerheid, onzekerheid en speculatie rondom bronvermeldingen in de kronieken. Een achttiende-eeuwse Friese kroniekschrijver zegt bijvoorbeeld over de uitvinding van de bliksemafleider: moeten ze dat wel of niet doen? Want hoe zit het als God beslist dat de bliksem bij hem zal inslaan, moet hij zich daar niet bij neerleggen en geen bliksemafleider plaatsen? Als de linguïst straks bepaalde taalkundige markers van speculatie en onzekerheid heeft gevonden, kunnen we die ook in andere kronieken opzoeken.”

Foutloze transcripties

Het team van Kuijpers heeft eerst zelf in 43 verschillende archieven in Nederland en Vlaanderen kronieken gescand. „We hebben 30.000 scans, die we straks aan de archieven teruggeven en voor iedereen beschikbaar stellen.” Daarna hebben ze het IJsberg-model van het Nationaal Archief gebruikt om dat verder te trainen. „Voor het computationeel taalkundig onderzoek hebben wij foutloze transcripties nodig. Daarom hebben vrijwilligers alle transcripties gecontroleerd, verbeterd en geannoteerd.”

Transkribus wordt verder ontwikkeld door een internationale coöperatie, waarvan ook het Noord-Hollands Archief en andere Nederlandse erfgoedinstellingen lid zijn. „We hebben nu 86 leden uit 24 landen”, zegt Vriend. Het is pas een begin, vervolgt hij. Kunstmatige intelligentie „zal een steeds grotere rol gaan spelen. Zelf zijn we bezig om voor het grote fotoarchief van Fotopersbureau De Boer automatische beeldherkenning te ontwikkelen.” Ook wordt gewerkt aan entiteitherkenning, waardoor zoekmachines verschillende verschijningsvormen van hetzelfde woord kunnen onderscheiden. En De Kok hoopt op Linked Data, waardoor informatie en datasets uit verschillende archieven aan elkaar gekoppeld worden, zodat onderzoekers nog meer verbanden kunnen vinden. „Sommige historici zijn bang dat door deze ontwikkelingen het traditionele archiefonderzoek zal verdwijnen. Dat blijft echter nodig, net als klassieke bronnenkritiek. Historisch onderzoek begint ook straks nog steeds met een goede vraag.”