Goedkoop digitaliseren is illusie

Het goedkoop scannen en digitaliseren van boeken wordt waarschijnlijk niks. Er ontstaan te veel fouten, stellen Cees Klapwijk en René van Stipriaan.

Hans Jansen van de KB wil boeken lossnijden en door de scanner gooien ‘om ze te redden’. Ewoud Sanders vindt dat een goed plan. Hun optimisme is gebaseerd op de resultaten die met volautomatisch scannen en OCR (tekstherkenning) bereikt kunnen worden: nog geen twee fouten op 10.000 aanslagen. Deze verwachting stoelt op beweringen van OCR-softwarefabrikanten. Maar iedereen die wel eens met OCR werkt, weet beter. In een artikel in De Boekenwereld gaf Sanders een wat reëler beeld: 98 procent accuraat geldt als nog heel aanvaardbaar. Dat betekent dat op één regel gemiddeld één fout staat: minstens één woord op de tien is niet goed gelezen.

Om te zien wat dit tot gevolg heeft is een kwartiertje googelen in Google Library heel instructief. Tik het sinds 2000 in omloop zijnde acroniem DBNL in en je krijgt maar liefst 375 treffers. Bij nader inzien blijkt nog geen 10 procent daarvan echt over de DBNL te gaan; de rest wordt gevormd door leesfouten.

Goed digitaliseren is moeilijker dan Jansen en Sanders doen voorkomen. Blind op een scanner gooien van stapels losgesneden bladzijden zal zeer wisselende resultaten te zien geven. Soms heel aardig, maar veel vaker erg belabberd. Voor onderzoek zijn deze bestanden ongeschikt.

De gedachte zou kunnen ontstaan dat de behoefte aan digitale teksten met het vrijmaken van een paar miljoen euro in één keer gestild kan worden. Het digitaliseren van een boek zou niet meer dan 10 à 12 euro hoeven kosten. Geloof er maar niets van. We voorspellen dat het vinden van de overtollige exemplaren, het vergaderen over de prioriteiten, het regelen van de rechten, het tobben over het al dan niet versnijden van een boek dat in een antiquariaat meer dan 100 euro waard is, al meer gaat kosten.

Maar nog zwaarder drukken de kosten op de langere termijn: uiteindelijk zal veel werk opnieuw moeten gebeuren en dan goed.

Verantwoorde digitalisering zou het Nederlandse taalgebied internationaal in de voorhoede kunnen brengen. Binnen vijf jaar kan er een digitale bibliotheek staan waarbij het gooi- en smijtwerk van de scanprojecten van Google en KB zal verbleken. Op den duur bespaart deze digitale bibliotheek zelfs geld. Het onderhoud van publieksdiensten in bibliotheken valt namelijk vrij. De kost gaat voor de baat uit.

Cees Klapwijk en René van Stipriaan zijn resp. directeur en hoofdredacteur van de Digitale Bibliotheek voor de Nederlandse Letteren (www.dbnl.org).

Voor een uitgebreidere versie van dit artikel zie dbnl.org/29112007.htm