Hoe digitaliseer je een tekst

Het digitaliseren van gedrukt erfgoed is een tijdrovend karwei. Eerst wordt een pagina digitaal gefotografeerd in een scanner. Die pagina is dan alleen nog maar een digitaal plaatje in de computer. Om de tekst te kunnen doorzoeken wordt de scan omgezet in voor de computer leesbare woorden. Dat gebeurt met zogeheten ocr-programma’s. Ocr staat voor ‘optical character recognition’: optische tekenherkenning.

Dit ‘ocr’en’ verloopt nooit vlekkeloos, doordat de computer moeite heeft met het lezen van teksten in oude spelling en in onbruik geraakte drukletters. Zo lijken bijvoorbeeld de ‘s’ en de ‘f’ zo op elkaar in pre-moderne teksten dat ze gemakkelijk worden verward. Om die reden wordt, in het ideale geval, de digitale pagina gecorrigeerd met het origineel ernaast.

Vervolgens worden er cruciale gegevens toegevoegd, zoals het verschijningsjaar, de naam van de auteur en de plaats waar de tekst werd gedrukt.

Alles bij elkaar kost het ongeveer 1 euro per pagina om goed te digitaliseren, al is bij verschillende projecten de prijs hoger uitgevallen. In totaal zijn er 700 miljoen Nederlandstalige pagina’s die gedigitaliseerd kunnen worden. Daarvan is nu minder dan vijf procent gedigitaliseerd – hoeveel precies is onbekend.

Als beste website voor gedigitaliseerde teksten geldt Digitale Bibliotheek voor de Nederlandse Letteren (DBNL, www.dbnl.nl), met 3 miljoen smetteloze pagina’s Nederlandstalige literatuur. Alle gedigitaliseerde pagina’s zijn met de hand gecorrigeerd in Azië, waar dat het goedkoopst kan.

Hoe slecht het digitaliseren kan uitpakken, blijkt uit Het geheugen van Nederland (www.geheugenvannederland.nl). Deze website met miljoenen boeken, affiches, foto’s en kunstwerken heeft 7 miljoen euro gekost, maar er is verzuimd de teksten leesbaar te maken. Het geheugen van Nederland hanteert als standaardverweer dat deze website in de eerste plaats een beeldbank is, die bovendien is gebouwd in een tijd dat de ocr-programma’s nog niet zo goed waren.

De volgende tekst is geautomatiseerd aangemaakt met ‘ocr’ (Optical Character Recognition). Het is een transcriptie van een bericht van april 1915 uit de Nieuwe Rotterdamse Courant. Omdat de ocr-techniek onvolkomen is, bevat de tekst onjuiste tekens:

Ochtendblad, A. De Oorlog. Italië en Turkije. Een mededeeling van den Italiaanschen genant in den Haag.

va IlMaansobo gezant bh ons BdT beeft heten do wlgando mosl*Üe<<llng godaan aa» oaion ministervan !ult«ll_la_-ll«z»o _HkOn: Hot v**t*^»n*«l**b*-g van IXuaanne (18 Oetobar 1012) 5 doot do 'kurkatlllo regooring ge_ebon*_en roods van iet oayenblik al, waarop bét gesloten werd. Do kei» -er-ljko regoering beeft nooit ornabige mav.<ragolen -«nomen voor do omniddallliiko staking dnr vijand» ijkbeden in I.vdlk, n!»Ala ah heil moeten doen overenkowtlUg baar plechtige verbintenis, Zy heelt nooit r.ta ge<lam< voor do bevrijding der Itall**_u*«eh« krssgs» jevlwgttten. vo Turkaoho militairen, welke in Tri•bll on ia Burka waren ««btolgeblevoa, bleven go» vmmaudoerd Loor hunne officieren onder bet vaan» lel valu bun land on bebieldon bun geweren en lav» «mnon. Tot .November. 1012 leiddo Lnver pasja xelf Ie vijandol'jk.toden tegen óns loger; Azlz bei ver» tot cent in Juni 1013...