Gun boeken een tweede leven: digitaal

Boekenliefhebbers moeten niet sentimenteel doen over het versnijden van boeken. De Digitale Bibliotheek voor de Nederlandse Letteren zou haar koers moeten herzien, vindt Ewoud Sanders.

Vorige week heeft de Koninklijke Bibliotheek (KB) het plan gelanceerd om op grote schaal boeken te gaan versnijden om zo de massadigitalisering van ons papieren erfgoed meer vaart te geven. Zoals te verwachten was, leidde dit hier en daar onmiddellijk tot protest: het versnijden van boeken wordt al snel als cultuurbarbarij bestempeld.

Die klacht komt mij bekend voor, want ik ben al ruim anderhalf jaar boeken aan het scannen op de manier die nu door de KB wordt voorgesteld. Je legt een boek onder een snijmachine, je snijdt – rats! – de rug eraf en je legt de losse bladen vervolgens in een scanner, die (afhankelijk van de kwaliteit) zo’n honderd pagina’s per minuut digitaliseert. Vervolgens laat je die pagina’s lezen door een zogenoemd OCR-programma, een programma voor automatische tekenherkenning. Op deze manier kun je een boek van tweehonderd pagina’s in tien minuten omzetten in een op woordniveau doorzoekbare pdf (dit staat voor ‘portable document format’). Bijkomend voordeel: je kijkt naar originele afbeeldingen van de pagina.

Is dit snijden een vorm van cultuurbarbarij? Dat zou het zijn, als je hiermee unieke exemplaren van boeken vernietigde, dan wel het enige exemplaar dat van een titel bewaard is gebleven. Maar als je van dubbele exemplaren gebruikmaakt, zoals de KB nu voorstelt, dan is de beschuldiging van cultuurbarbarij wat mij betreft – hoe zeg ik dat genuanceerd? – sentimentele flauwekul. Ja, het boek als object heeft zijn eigen cultuurhistorische waarde, maar de meeste mensen lezen of raadplegen boeken toch vooral om de inhoud.

Welnu, die inhoud is veel beter te vinden en te doorzoeken bij boeken in digitale vorm. Niemand haalt het meer in z’n hoofd om complete jaargangen van kranten of tijdschriften door te nemen op zoek naar een naam, een woord of een bepaalde tekst. Niemand gaat meer álle Nederlandstalige romans lezen die, zeg, tussen 1900 en 1950 zijn verschenen, om te onderzoeken hoe het beeld van de vrouw zich in de periode ontwikkelde. Met gedigitaliseerde boeken kan dit allemaal veel makkelijker en gestructureerder. Hoe meer boeken er worden gedigitaliseerd, hoe beter, want het is de massa die de kwaliteit bepaalt.

Dat is dan ook precies wat de KB nu voorstaat: de digitalisering van zoveel mogelijk boeken, om te beginnen de vier- à vijfhonderdduizend boeken die tussen 1800 en 1950 zijn verschenen. Om dit nog enigszins betaalbaar te maken – de kosten voor dit project worden geschat op zo’n 6 miljoen euro – móét je wel boeken gaan snijden, en zolang je daar exemplaren voor gebruikt die elders in papieren vorm bewaard blijven, valt dit alleen maar toe te juichen.

Wordt de Nederlandstalige literatuur dan niet al gedigitaliseerd? Ja, sinds maart 2000 kennen we de Digitale Bibliotheek voor de Nederlandse Letteren, de DBNL. De DBNL heeft echter een andere aanpak. De samenstellers van deze digitale bibliotheek snijden geen boeken, maar sturen ze naar de Filipijnen, waar ze ,,letter voor letter’’ (aldus het bericht van vorige week) worden uitgetikt. Kosten: tussen de 1,50 en 2 euro per pagina.

Het grote gelijk van de KB blijkt uit de cijfers. De DBNL krijgt van de Taalunie 288.000 euro subsidie per jaar, wat nog eens is aangevuld met een eenmalige subsidie van 800.000 euro voor duizend ‘sleutelteksten’. In zeven jaar tijd heeft de DBNL – voor ruim twee miljoen euro – zo’n tweeduizend zelfstandige titels gepubliceerd, naast vierhonderd jaargangen van tijdschriften, en enkele honderden artikelen. In totaal gaat het om een half miljoen pagina’s. De productie is de laatste twee jaar flink gestegen: er komen momenteel zo’n vijftig tot zeventig titels per maand bij, goed voor ruim 25.000 pagina’s.

Is dat veel? Zoals gezegd: ik ben zelf aan het snijden en scannen geslagen, gewoon tussen het werk door. Een van de redenen om dat te gaan doen was dat de DBNL van de Taalunie opeens geen taalkundige boeken meer mocht opnemen. Het duurde mij simpelweg allemaal veel te lang, dus dan maar de boeken en tijdschriften uit de eigen bibliotheek opgeofferd.

In anderhalf jaar tijd heeft mijn privéscanwerk geresulteerd in een (taal)bibliotheek van ruim 1,5 miljoen pagina’s, tegen een fractie van de kosten van de DBNL.

Voor de goede orde: boeken die je met OCR laat lezen, zijn niet foutloos. Sommige fabrikanten van OCR-software beweren dat ruim 99,997 procent van de teksten foutloos wordt gelezen, maar zeker bij oudere boeken is dat niet waar. Nederlandse teksten laten uittikken in de Filipijnen en die vervolgens steekproefsgewijs controleren, levert ook geen foutloos werk op. De DBNL beweert dat hun teksten voor 99,995 procent foutloos zijn (1 fout op 20.000 aanslagen), maar het valt te betwijfelen of dat waar is. Het is zelfs zo dat tikfouten die aan de redactie worden doorgegeven (volle voor volk bijvoorbeeld en volles-opvoeding voor volksopvoeding), niet worden gecorrigeerd, zo ontdekte een medewerker van deze krant (niet ondergetekende).

De universiteitsbibliotheken doen er goed aan om het initiatief van de KB te ondersteunen en na te volgen: ga op grote schaal dubbele exemplaren verzamelen, snijden en scannen. Voor de generaties die nu opgroeien bestaan boeken (bijna) niet meer als ze niet op internet te vinden zijn en dat is iets waar we ons maar beter bij neer kunnen leggen. Als we te lang wachten heeft Google ook alle Nederlandstalige boeken gedigitaliseerd, maar de kwaliteit van Google’s scanwerk laat sterk te wensen over. Bovendien ben je dan meteen de zeggenschap over deze boeken kwijt.

De DBNL zou haar aanpak grondig moeten herzien. Het compleet laten uittikken van boeken zou beperkt moeten blijven tot oude en ‘moeilijke’ boeken, die niet geschikt zijn voor OCR. Je zou bij deze bibliotheek rechtstreeks willen kunnen zoeken door miljoenen pagina’s in pdf-formaat, zoals bij alle grote boekenprojecten wereldwijd, en niet door html-pagina’s waarop je bijna niks terugziet van de oorspronkelijke vormgeving van het boek. Nu zijn slechts bij enkele titels scans van de oorspronkelijke pagina’s te zien, scans die vaak opvallend slecht van kwaliteit zijn.

Nog een curieuze tekortkoming van deze kostbare en prestigieuze website: sinds kort bestaat bij de meeste titels de mogelijkheid om het boek te downloaden. Je kunt kiezen tussen delen van het boek (pagina 1 tot 100, 101 tot 200 enzovoorts), of het boek als geheel. Maar wie kiest voor de optie ‘download alle pagina’s’, haalt niet het complete boek binnen, want delen van het zogenoemde voorwerk en nawerk staan alleen op de website. Een voorbeeld. De ‘complete’ pdf van Opperlandse taal- & letterkunde van Battus begint op pagina 5 en springt dan naar pagina 11, zodat je de hele inhoudsopgave mist.

Maar het belangrijkste in deze kwestie is dit: boekenliefhebbers moeten zich niet door hun boekenliefde laten verblinden. Papier is slechts een informatiedrager, een drager die bovendien veel kwetsbaarder is dan menigeen denkt. Inktvraat, ongedierte, waterschade, slecht papier, brand – er zijn allerlei plagen die boeken kunnen treffen. Er zijn nu al tienduizenden boeken die nauwelijks meer te raadplegen zijn, om nog maar te zwijgen van kranten en tijdschriften.

Om de duurzaamheid van gedigitaliseerde boeken te garanderen, moet doorlopend onderzoek worden gedaan. Maar één ding is zeker: het digitale universum gaat niet meer weg. Gun boeken daarom een tweede leven op internet. Ze zullen vaker worden geraadpleegd dan ooit tevoren.

Ewoud Sanders is medewerker van NRC Handelsblad.