Het digitale drama

Geesteswetenschappen De digitalisering van erfgoed neemt een hoge vlucht, maar gebeurt slordig en chaotisch. Wetenschappers kunnen talloze bronnen daardoor niet vinden of doorzoeken.

Voor zijn in 1973 voltooide proefschrift probeerde de neerlandicus Wim van den Berg te achterhalen wanneer de romantiek zijn intrede deed in Nederland. Boeken, kranten en tijdschriften van rond 1800 spitte hij door op zoek naar het woord ‘romantisch’. Na vijftien jaar concludeerde Van den Berg dat het woord in 1810 voor het eerst op dezelfde manier werd gebruikt als eerder in Duitsland, Frankrijk en Engeland.

Om ‘zijn’ Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) te testen herhaalde hoofdredacteur René van Stipriaan vorig jaar deze zoektocht. De gedigitaliseerde boeken en tijdschriften in de databank doorzocht hij op het woord ‘romantisch’. Van Stipriaan: “Na een korte avond zoeken kon ik het eerste gebruik ook vastprikken in 1810.”

Dit kunststukje is een triomf van de digitalisering van het gedrukte erfgoed, dat het afgelopen decennium een hoge vlucht heeft genomen. Universiteiten, bibliotheken, wetenschappelijke instituten en archieven hebben al miljoenen pagina’s van boeken, kranten en tijdschriften gescand en veelal op websites gezet – voor minimaal 50miljoen euro (zie inzet). De digitalisering is nu zelfs in een stroomversnelling gekomen met bijvoorbeeld het net begonnen Google Books in Nederland.

Je zou dus verwachten dat geesteswetenschappers dagelijks bliksemacties als hierboven doen, maar dat is niet zo. Want waar bètawetenschappers met een sportauto over de digitale snelweg razen, hobbelen beoefenaars van de humaniora met een brik door een doolhof van websites en databanken. Geesteswetenschappers kunnen veel gedigitaliseerde documenten moeilijk of niet vinden. De wel gevonden documenten kunnen ze moeilijk of niet doorzoeken. De doorzoekbare documenten geven vaak onbetrouwbare zoekresultaten.

“Vroeger haalden wetenschappers met het bladeren in boeken en tijdschriften eigenlijk emmers water uit een put. Tegenwoordig is er door de digitalisering een waterleidingnet. Maar dat net is zo vervuild, dat elke onderzoeker alsnog zelf het water moet zuiveren in een emmertje”, schetst Van Stipriaan van DBNL. DBNL is een van de belangrijkste aanbieders van gedigitaliseerd erfgoed in Nederland en wordt gesubsidieerd door de Taalunie, een organisatie van de Nederlandse en Vlaamse overheid. “Het is nog erger. Er zijn wel 33 verschillende waterleidingen en niemand heeft een idee wat waar in zit”, zegt Wijnand Mijnhardt. De hoogleraar geschiedenis aan de Universiteit van Utrecht is een grootverbruiker van digitaal erfgoed.

Onder veel bijval van wetenschappers hebben Van Stipriaan en Mijnhardt de noodklok geluid. De eerste in meerdere artikelen, waaronder in De Gids, de tweede onlangs bij een lezing in Leiden. De vele voorbeelden van gebrekkige digitalisering in de geesteswetenschappen die zij en anderen aandragen, vormen een soort zwartboek. Een kleine greep:

De Universiteit van Amsterdam (UvA) heeft ruim 10.000 boeken en brochures uit de periode 1900-1915 gedigitaliseerd; helaas is de collectie voor onderzoekers buiten deze universiteit onbereikbaar. Een rechtenkwestie, zegt de UvA, waar binnenkort naar gekeken wordt.

Universiteiten bouwen voor een onbekend bedrag databanken met proefschriften en andere publicaties van hun personeel. De inrichting van deze ‘repositories’ is zo knullig, dat de publicaties nagenoeg onvindbaar zijn. Alleen wie precies weet wat ie zoekt, kan iets vinden in deze ‘open acces’-bestanden.

Op het Geheugen van Nederland zijn voor ruim 7 miljoen euro de hoogtepunten van het vaderlandse gedrukte erfgoed bijeen gebracht. Hoewel de boekomslagen, cartoons en foto’s schitterend zijn, is een bezoek aan de website wanhopig makend: geen enkel document kun je doorzoeken. Zelfs bibliotheken en archieven die eraan hebben bijgedragen, kunnen hier hun eigen spullen niet terugvinden. Het paradepaard van digitaal erfgoed heeft inmiddels als bijnaam het Geheugenverlies van Nederland.

Zuidoost-Azië

De voorbeelden geven aan dat universiteiten, bibliotheken en archieven hun drukwerk hebben gescand zonder goed na te denken over de vraag wie de gedigitaliseerde documenten op welke manier het beste zou kunnen gebruiken. “De gebruikers zijn te weinig betrokken geweest”, erkent Astrid Verheusen, hoofd innovatieve projecten bij de Koninklijke Bibliotheek (KB). De KB is naast DBNL de grootste partij bij het digitaliseren van erfgoed. “Met wetenschappers is veel te weinig gesproken over hun behoeften.”

Digitalisering waar onderzoekers wat aan hebben, ziet er ongeveer zo uit. Eerst worden de boeken, tijdschriften of kranten gescand: dit levert alleen afbeeldingen van pagina’s op. Die plaatjes worden vervolgens met ‘optical character recognition’ (OCR), software voor optische tekenherkenning, omgezet in een tekst die je kunt doorzoeken en bewerken. Uiteindelijk wordt het document voorzien van metadata zoals de auteursnaam, titelgegevens en allerlei technische specificaties..

Hoewel de OCR-software het afgelopen decennium sterk is verbeterd, verloopt het omzetten van beeld naar tekst niet foutloos, onder meer doordat de computer moeite heeft met het herkennen van woorden in oude spelling (de verwisseling van de s en de f is berucht). “Je moet de omzetting dus controleren en corrigeren. Wij laten dat doen in Zuidoost-Azië, waar mensen de digitale documenten vergelijken met de originelen”, zegt Van Stipriaan van DBNL. Om dat goed te kunnen doen, hoef je de taal niet te kennen. De OCR van DBNL, de database voor literatuur. geldt als de beste in Nederland.

De metadata zijn ook een klus, bijvoorbeeld doordat bij eeuwenoude auteursnamen de spelling niet vast ligt. “En wij kennen nog maar één Jean-Jacques Rousseau, maar in de 18de eeuw had je wel meer Franse auteurs met die naam”, zegt hoogleraar Mijnhardt: “Het is soms bij een geschrift even zoeken of je dé Rousseau voor je hebt.”

De tekenherkenning en de metadata zijn echter in veel gevallen onder de maat. “De OCR is doorgaans slordig gedaan. Een fout op 10 pagina’s is net acceptabel, maar in de meeste documenten staan er veel meer”, zegt Van Stipriaan: “Wie een woord intypt, krijgt woorden die hij niet zoekt (vals positief) en – veel erger – mist de aanwezige woorden die hij wel zoekt (vals negatief).” De metadata zijn eveneens gebrekkig, zegt Mijnhardt: “Wie bijvoorbeeld wil schrijven over de boekenproductie in Leiden, kan niet achterhalen welke van de gedigitaliseerde boeken daar ooit zijn gepubliceerd.”

Geldgebrek verklaart deels de nalatigheid van de erfgoedinstellingen. Goed digitaliseren kost ongeveer 1 euro per pagina, dus 200 euro voor een boek van ge gemiddelde omvang (200 pagina's). Dat is veel geld voor een boek dat zelden wordt geraadpleegd. De neiging is om het digitaliseren na het scannen af te raffelen.

Een andere verklaring ligt in de manier waarop de digitalisering een jaar of twintig geleden is begonnen, zegt Verheusen van de KB: “Archieven en musea wilden hun topstukken tonen en gebruikten hun website als de boetiek van de mooiste spullen. De nadruk lag op de mooie plaatjes. Pas laat in de jaren negentig kwam de ommezwaai naar tekst. We waren de eersten en moesten zelf uitvinden hoe het moest.”

De pioniers gingen daarbij voort op een bekende maar doodlopende weg, zegt directeur Marco de Niet van Digitaal Erfgoed Nederland (DEN), een door het rijk betaald instituut dat de kwaliteit van de digitalisering probeert te verbeteren. “Instellingen zijn vaak al vroeg begonnen met digitaliseren vóór het tijdperk van het world wide web – met dezelfde verouderde ICT werken ze nog. Daarbij koppelen ze de ene database aan de andere; dat is wat anders dan het web gebruiken.”

Tel daarbij op dat de humaniora vanouds versplinterd zijn en je heb de verklaring voor de wildgroei aan instellingen die allemaal op hun eigen manier zijn gaan digitaliseren. In een brief aan de Tweede Kamer sprak toenmalig staatssecretaris Van der Ploeg in 2002 dan ook van ‘sterk monolithische systemen en een versnippering van projecten waarmee een aanzienlijke verspilling van energie en geld dreigt. Het leidt er toe dat gedigitaliseerde erfgoedbronnen maar zelden hun potentieel in cultureel, sociaal of economisch opzicht ten volle kunnen realiseren.’

Verspilling? Een decennium later blijkt dat sommige boeken of reeksen zes keer zijn gescand, steeds op een ander plek. Onbenut potentieel? Nog steeds zijn instellingen er niet in geslaagd om een centraal register op te zetten voor wat gescand is of wordt. Instellingen besteden het scannen uit – maar telkens met andere specificaties – of doen het zelf lukraak. “Door dit alles is veel moeilijk vindbaar en nauwelijks doorzoekbaar”, zegt De Niet van DEN.

Kranten

DEN probeert erfgoedinstellingen bij het adviseren over digitalisering te overtuigen van het nut van standaardisering. “Wij zijn adviserend, niet normerend. We geven aan hoe instellingen het beste kunnen digitaliseren maar dwingen dat niet af”, zegt De Niet. “Voordeel is dat als de zelfregulering werkt, het draagvlak groter is dan met dwang. Nadeel is dat de standaarden niet worden opgelegd.” En dat veel instellingen die standaarden dus negeren.

Dit nadeel voelen vooral wetenschappers die graag grote corpora van boeken, tijdschriften en kranten willen doorzoeken. Zo zijn inmiddels 126 digitaliseringsprojecten voor kranten. Wie ze wil bekijken, moet naar tientallen verschillende websites. De kranten staan niet in één portaal; dat kan ook niet, want ze zijn niet volgens één standaard gescand, en het zal waarschijnlijk ook nooit kunnen.

De versplintering van de geesteswetenschappen is ook af te lezen aan het feit dat universiteiten, archieven en bibliotheken de handen nog steeds niet ineen hebben geslagen, zegt Van Stipriaan. “Door niet één plan te maken om al het gezamenlijke erfgoed volgens een standaardnorm te digitaliseren hebben de instellingen het speelveld open gelaten.” Dat speelveld is nu betreden door Google Books. De boekenpoot van zoekmachine Google heeft in 2010 een deal met de KB gesloten om de 160.000 boeken uit de periode 1700-1870 te scannen.

Met Google Books, dat in 2008 bij de universiteit van Gent het Nederlandse taalgebied betrad, dreigt ‘quick and dirty’ de norm te worden. “De OCR van Google Books is berucht slecht”, zegt Peter Boot van het Huygens Instituut voor Nederlandse Geschiedenis. “De metadata zijn ook niet goed. Het verzameld werk van Huygens zit in een serie van 6 delen, maar Google Books geeft niet aan dat er meerdere delen zijn.”

Verheusen van de KB erkent dat OCR en metadata “niet heel goed” zijn, maar: “Zonder Google Books zouden we deze boeken voorlopig helemaal niet kunnen scannen.” Hoogleraar Mijnhardt noemt Google Books dan ook een „zegen” voor zijn werk: “Hoewel pas een procent of tien van de boeken is gedigitaliseerd, kan ik nu al veel digitaal vinden.”

Als Nederlands antwoord op Google Books geldt Early Dutch Books Online (EDBO), een prestigieus project van de KB en de universiteiten van Leiden en Amsterdam. Bij EDBO zijn twee miljoen pagina’s van 11.000 boeken uit de periode 1781-1800 gedigitaliseerd voor 3 miljoen euro. EDBO dat begin deze zomer online is gegaan, zou een model van hedendaagse digitalisering in Nederland moeten zijn, maar vertoont de gebruikelijke gebreken.

Het was bij de lancering van de ‘vroege Nederlandse boeken’, dat hoogleraar Mijnhardt de staf brak over de digitalisering en die van het EDBO in het bijzonder. Boot van het Huygens valt hem bij: “De OCR van Early Dutch Books is rampzalig. 90 procent van de pagina’s foutloos is acceptabel, maar dat haalt dit project niet. En dan zijn alleen nog maar de boeken in Latijns schrift gedaan, die in Gotisch schrift zouden helemaal een probleem zijn geweest.” Verhagen van de UvA zegt dat de best mogelijke programmatuur is gebruikt: “Helaas is die nog niet goed genoeg.”

Tellen en turven

Maar geesteswetenschappers die mopperen, zijn vaak volgens de criticasters ook te weinig doordrongen van de van de mogelijkheden van digitalisering. Velen hebben nauwelijks een meten-is-weten-mentaliteit, zegt Van Stipriaan van DBNL: “Tellen en turven, iets wat dus heel makkelijk moet kunnen met digitale bestanden, gebeurt in de geesteswetenschappen verrassend weinig.” Hij zelf leverde met simpelweg meten een veelgeprezen bijdrage aan een academisch debat.

Dat debat draaide om de vraag of de internationale romantiek in Nederland snel voet aan de grond kreeg. Niet echt, zei eerdergenoemde Van den Berg. Jawel, zei Marita Mathijsen, (emeritus) hoogleraar Nederlandse letterkunde. Van Stipriaan turfde in zijn DBNL hoe lang het in de negentiende eeuw duurde voor een romantisch boek uit het buitenland werd vertaald: gemiddeld 17 jaar. Dat bevestigde volgens hem het gelijk van Van den Berg.

“Een fantastisch voorbeeld van wat digitalisering voor de geesteswetenschappen kan betekenen. Iedereen kan het experiment herhalen, het is controleerbaar, het is objectief. Het is een kwantitatieve versterking van kwalitatief onderzoek”, vindt Mijnhardt. “De kwantitatieve aanpak is helaas lang uit de gratie geweest bij de humaniora – met uitzondering van de economische historici die een paar decennia terug tijdreeksen zijn gaan verzamelen.”

Rond 1900 ontstond er een scheiding in de wetenschappen. “De natuurwetenschappers gingen werken in laboratoria. Geestwetenschappers raakten onder invloed van Duitse filosofen met hun ‘begrijpend observeren’ en lieten zo kansen liggen”, zegt Mijnhardt, die ‘graag mag tellen’ in zijn onderzoeken: “Digitalisering kan helpen de kloof tussen alfa- en bètawetenschappen te dichten.”

Dan moet er wel nog heel wat gebeuren, zeggen betrokkenen. Verhagen van de UvA hoopt op betere OCR: “Om in de toekomst alle bestanden opnieuw door de wasmachine te halen.” Maar de belangrijkste wens is: één standaard komen voor de digitalisering. “De Taalunie zou standaardisering moeten afdwingen”, vindt Boot van het Huygens. Deze Nederlands-Vlaamse unie heeft als overkoepelende organisatie die ook de spellingsregels bepaalt, veel gezag.

De Taalunie laat weten “meer samenhang te brengen” in de digitalisering en gaat een inventarisatie maken van voltooide en voorgenomen projecten. “We willen voorkomen dat dingen twee keer worden gedaan”, zegt Karlijn Waterman van de Taalunie. Dit najaar willen de Nederlandse en de Vlaamse tak een congres organiseren met alle betrokken beleidsmakers. Waterman: “Het zou mooi zijn als we dan in kaart hadden, wat waar al is gedigitaliseerd.”

De ongeduldigen willen dat een grote partij de regie op zich neemt, maar wie moet dat zijn. “De KB, want de KB heeft veel ervaring en de mogelijkheden om snel en op grote schaal te digitaliseren en standaarden te ontwikkelen”, vindt Verheusen van de KB. De Taalunie, vindt De Niet van DEN: “De Taalunie is gezaghebbend, staat garant voor politieke steun en betrokkenheid en is onpartijdig.” Als het maar snel gebeurt, zegt Mijnhardt: “De toekomst is met de digitalisering schitterend, maar ik hoop hem nog wel mee te maken.”