Het ftinkdier flaapt

In Gent gaan duizenden boeken per maand door de scanner. Voor Google Book Search. Maar er gaan nog veel mis, blijkt uit de eerste resultaten. Ewoud Sanders

Een voorbeeld van de tekstkwaliteit van een oud boek bij Google Book Search A Het origineel

De Universiteitsbibliotheek van Gent wilde veel eerder samen met Google boeken gaan scannen, maar in de zomer van 2007 werd de bibliotheek door een ramp getroffen. De Universiteitsbibliotheek van Gent, een van de grootste bibliotheken in Europa, is gevestigd in een hoog gebouw dat bekendstaat als de Boekentoren. Die zomer sprong op de zeventiende verdieping de waterleiding, waardoor ruim 20.000 boeken en tijdschriften schade opliepen. “Het water stroomde helemaal tot de vijfde verdieping langs de muren, als een soort gordijn’’, vertelt dr. Sylvia van Peteghem, de directeur van de bibliotheek.

De samenwerking met Google liep hierdoor vertraging op, maar na een testfase ging men aan het begin van dit jaar aan de slag en vorige week werden in Gent de eerste resultaten bekendgemaakt. De geplande productie van tienduizend boeken per maand is nog niet gehaald, maar de eerste vijfduizend boeken zijn nu gescand. Inmiddels zijn er ruim vierduizend boeken uit Gent te raadplegen bij Google Book Search, het grote boekenproject van Google.

Gent is de eerste bibliotheek in het Nederlandse taalgebied die deze samenwerking met Google is aangegaan. Het zoekmachinebedrijf besloot in 2004 om op grote schaal boeken doorzoekbaar te gaan maken. Sinds die tijd zijn 27 grote bibliotheken in onder meer de Verenigde Staten, Engeland, Frankrijk en Zwitserland met Google in zee gegaan. Inmiddels kun je bij Google Book Search ruim één miljoen boeken op woordniveau doorzoeken, en dit aantal stijgt dagelijks.

auteursrecht

De Universiteit van Gent gaat 300.000 boeken leveren, van de zestiende eeuw tot 1867. Die einddatum, die is vastgesteld door Google, moet problemen voorkomen met het auteursrecht, dat voorschrijft dat de rechten op een boek pas zeventig jaar na de dood van een auteur vervallen. “Wi j hadden de grens liever opgetrokken naar 1880 of nog liever naar 1900’’, zegt Sylvia van Peteghem, “maar dat lukt misschien later nog.’’

Hoe gaat dat in zijn werk, 300.000 boeken scannen? Op allerlei terreinen zegt Google zo transparant mogelijk te willen zijn, maar over de technische details van dit megascanproject doen ze geheimzinnig. “De boeken worden in kleur gescand ergens in Europa’’, vertelt Philippe Colombet na enig aandringen. Colombet werkt bij de Parijse vestiging van Google en geeft mede leiding aan Google Book Search. Of Google zelf software heeft ontwikkeld om de gescande boeken te lezen met OCR (Optical Character Recognition ofwel optische tekenherkenning) of dat ze gebruikmaken van bestaande software, wil Colombet niet kwijt. Wel onderschrijft hij dat de kwaliteit van de OCR essentieel is om uiteindelijk via Google de juiste informatie te vinden.

“Optische tekenherkenning is geen exacte wetenschap’’, zegt Colombet. Het proces komt er op neer dat de letters op een gescande bladzijde door een softwarepakket worden gelezen. Dat wil zeggen: ze worden omgezet in digitale tekens zodat je de bladzijde vervolgens elektronisch kunt doorzoeken. Colombet: “Er zullen altijd fouten blijven staan, maar de techniek wordt almaar beter en daar houden we rekening mee.’’

Toch was het juist op dit punt even schrikken, bij de presentatie in Gent. Colombet en directeur Van Peteghem lieten vol trots zien dat nu de eerste vierduizend Gentse boeken via Google volledig doorzoekbaar zijn en dat je bovendien kunt kiezen of je alleen de afbeelding van de pagina bekijkt of alleen de tekst. Maar juist de functie ‘bekijk alleen tekst’ maakt in één oogopslag duidelijk dat bij de oude boeken heel erg veel misgaat met de optische tekenherkenning. Algemeen wordt aangenomen dat OCR-software ruim 99 procent van een tekst goed leest bij boeken die sedert het eind van de negentiende eeuw zijn gedrukt. Maar in Gent zijn ze juist zoveel mogelijk boeken aan het scannen van vóór die tijd, en kennelijk heeft ook Google hiervoor nog geen oplossing gevonden.

natuurboeken

Eén voorbeeld volstaat: in oude teksten werd de s vaak geschreven als een soort f. Tussen de Gentse boeken die nu zijn gescand, zitten er veel over de natuur. Daarin lezen we bijvoorbeeld over het ftinkdier, dat een affchuwelijk fterke ftank verfpreidt, flaapt in het bofch en een witte ftreep op zijn kop heeft. Vergelijkbare details zijn te vinden over andere ‘zodoende dieren’ (zoogende dieren) en over vifschen, flangen enzovoorts.

De gevolgen van dit soort leesfouten zijn groter dan je denkt: ze vervuilen in hoog tempo de index van Google. Zo is daar nu, ondanks dat er nog maar weinig Nederlandstalige boeken zijn gescand, ruim duizend keer het trefwoord befchrijving te vinden.

Directeur Van Peteghem heeft voor vijf jaar zes mensen vrijgemaakt om het scanproject in Gent uit te voeren. Valt de kwaliteit van de OCR – nogmaals: dé sleutel tot het vinden van de juiste informatie – haar niet erg tegen? “Eerlijk gezegd hebben we er nog nauwelijks onderzoek naar gedaan. De kwaliteit van de optische tekenherkenning is niet onze prioriteit. Google is hier gekomen en in een heel korte tijd, minder dan een halve dag, hebben we besloten om met ze in zee te gaan. Vervolgens moest er van alles en nog wat worden geregeld: de selectie, de opslag, het apart aanleveren van de titelbeschrijvingen, enzovoorts. Onze eerste prioriteit is nu het online zetten van de boeken.’’

Google scant de Gentse boeken door bladzij voor bladzij om te slaan. Hebben ze in Gent ook overwogen om de rug van boeken af te snijden zodat ze als stapel losse bladzijden kunnen worden gescand, een onderwerp dat onlangs in Nederland veel stof deed opwaaien? “Met die oude boeken doen we dat natuurlijk niet’’, zegt Van Peteghem, “maar met moderne boeken doen we dat al jaren, hier beneden in de kelder, op onze eigen scanners. Eerst lossnijden, en zonodig weer inbinden. We schreeuwen dit alleen niet van de daken.’’