Digitaal goudzoeken wordt makkelijker

Met een nieuwe zoekmachine staan alle digitale teksten straks op één plek. Van de 8ste eeuw tot nu.

Redacteur Wetenschap

Amsterdam. Een superzoekmachine waarmee je alle gedigitaliseerde Nederlandse boeken, kranten en tijdschriften, maar ook wetteksten, notulen en jaarverslagen kunt doorvlooien? Van de achtste eeuw tot heden? Eind 2012 is die bijzondere machine te vinden op de website ‘Nederlab’. „In andere landen bestaat niets vergelijkbaars”, zegt taalkundige Nicoline van der Sijs, die Nederlab coördineert vanuit het Meertens Instituut in Amsterdam. „Met Nederlab komt voor iedereen een gigantische bak gedigitaliseerde pagina’s beschikbaar”, zegt Hans Bennis, directeur van het Meertens Instituut. Alleen al deelnemer Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) levert drie miljoen digitale pagina’s proza en poëzie van de Middeleeuwen tot nu.

Maar wat kun je ermee? Van der Sijs geeft een voorbeeld: „Het woord ‘varen’ betekende vroeger ‘gaan’ of ‘lopen’. In oude teksten zie je het woord opduiken in combinatie met ‘paarden’ of ‘wagens’. Pas later vind je ‘varen’ met bijvoorbeeld ‘schuiten’, dus in de huidige betekenis.” Met Nederlab kun je straks de tekst vinden waarin varen voor het eerst met een boot gebeurde, en niet meer met een paard en wagen. En dat zegt veel over woordvorming in de Nederlandse taal, zegt Van der Sijs.

Zeker zo belangrijk is dat Nederlab een eind moet maken aan wat ‘het digitale drama’ is gaan heten. De laatste twintig jaar zijn tientallen miljoenen pagina’s in de computer gezet, van teksten in dialect bij het Meertens Instituut tot historische kranten bij de Koninklijke Bibliotheek. Dat kostte ruim 50 miljoen euro, maar taalkundigen en historici die de pagina’s willen bestuderen, belanden in een technologisch doolhof.

Het digitaliseren wordt niet altijd goed gedaan. Pagina’s moeten namelijk na het scannen worden omgezet van een plaatje in een voor de computer leesbare tekst. Oude teksten zijn vaak lastig leesbaar. Zo leest de computer het woord ‘televisie’ in een krant uit 1886, waar in werkelijkheid ‘ter visie’ staat. De teksten moeten dus worden gecorrigeerd, maar om financiële redenen wordt dit vaak nagelaten. Daar komt bij dat de instituten werken met eigen software, die weer niet aansluit op die van andere instituten. Wie de ruim honderd Nederlandse kranten wil doorzoeken, zal daarom vijftig websites moeten bezoeken. Het ideaal van één groot ‘corpus’ – dus één groot digitaal doorzoekbaar blok tekst van boeken, kranten en tijdschriften, is daarmee onmogelijk.

Geesteswetenschappers hebben hun zorgen daarover vaak geuit, steeds tevergeefs. Hun belangrijkste klacht is dat ze geen gebruik kunnen maken van de ongelooflijke mogelijkheden van het digitale erfgoed. Er zijn incidentele vondsten in gedigitaliseerde teksten, zoals die van het woord ‘cadeau’ dat in 1798 voor het eerst bleek op te duiken in plaats van ‘geschenk’. Maar dit is volgens Van der Sijs „een enkel goudklompje”, terwijl het digitale erfgoed een onuitputtelijke goudmijn zou moeten zijn voor taalkundigen en historici.

Dat vonden ook de erfgoedinstituten, ze werken in Nederlab nu wél samen. „Ik ben heel gelukkig dat er een einde is gekomen aan de versplintering”, zegt Bennis. Aan het portaal werken behalve het Meertens Instituut, onder meer universiteitsbibliotheken en de Koninklijke Bibliotheek mee. De Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) geeft ruim 2 miljoen euro subsidie voor Nederlab. Het project kost in totaal 4 miljoen euro.

Om een idee te krijgen wat Nederlab moest worden, ondervroeg Van der Sijs honderdvijftig onderzoekers. „Historici hebben liefst zoveel mogelijk teksten tot hun beschikking, zo krijgen ze bijvoorbeeld een goed beeld van een maatschappelijke discussie vóór een nieuwe wet werd aangenomen”, zegt Van der Sijs. „Er werd bijvoorbeeld al over slaven geschreven voordat de slavernij werd afgeschaft.”

In eerste instantie komen de vrijwel foutloze teksten van DBNL beschikbaar – en dan stap voor stap andere ‘schone’ tekstbestanden. Het corpus dat zo ontstaat, biedt onderzoekers niet alleen veel nieuw onderzoeksmateriaal, maar verhoogt ook de kwaliteit van de geesteswetenschappen. „Het is nu haast ondoenlijk om een onderzoek van een historicus of taalwetenschapper over te doen. Maar het repliceren van onderzoek wordt straks heel makkelijk”, zeg Van der Sijs. Je hoeft alleen maar dezelfde zoekcombinaties in te toetsen. „De alfawetenschappen krijgen zo meer een bètakarakter.”