Dagbladen digitaal doorzoeken

Wie een taalrubriek heeft, kan wekelijks op taalvragen rekenen. Zoals: sinds wanneer spreken wij van valse start? En bij welke sport? En: is nivelleren een oud woord en is rekenen aan de keukentafel een gangbare uitdrukking?

Een van de beste bronnen om dit soort dingen in na te zoeken is de collectie historische kranten van de Koninklijke Bibliotheek (kranten.kb.nl). Momenteel bevat die databank zo’n vier miljoen historische krantenpagina’s, maar aanstaande donderdag, wanneer in Den Haag de afronding van dit project wordt gevierd, zijn dat er ruim acht miljoen. Uit de jaren 1618-1995, en uit alle windstreken. Want de krantenbank bevat ook dagbladen die in Suriname, Nederlands-Indië en de Nederlandse Antillen zijn verschenen.

De oude leggers van NRC Handelsblad worden waarschijnlijk pas in 2014 toegevoegd. Dat komt doordat deze krant pas heel laat besloot om in zee te gaan met de Koninklijke Bibliotheek (KB). Echt voltooid is dit project dus nog niet.

Hoe dan ook, vanaf donderdag kun je een kolossale hoeveelheid dagbladen digitaal doorzoeken. Bijvoorbeeld om te ontdekken dat er zeker sinds 1856 over vals starten wordt geklaagd, bij paardenrennen: „Welligt is deze valsche start slechts eene krijgslist, om de beste paarden van hun stuk te brengen.” Dan wel om vast te stellen dat rekenen aan de keukentafel in Nederland geen gangbare reactie is op een kabinetsformatie. Althans: in de dagbladen is dat niet gedocumenteerd.

Die oude kranten zijn overigens geen feilloze bronnen. De inhoud is uitgetikt door een computerprogramma (met behulp van ocr, optische tekenherkenning), en de computer maakt daarbij helaas heel veel ‘leesfouten’. Binnenkort gaat bij de KB een project van start om te onderzoeken wat de beste manier is om dit grote aantal fouten terug te dringen: met behulp van crowdsourcing (zoals bijvoorbeeld gebeurt met een Australische historische krantencollectie), of met software die je kunt trainen.

Er is nog een reden om uit te zien naar donderdag, want dan lanceert de KB gratis de krantenapp ‘Hier was het nieuws’. Die is gebaseerd op de kranten tot 1940, zonder de familieberichten. Ben je met je smartphone bijvoorbeeld in een van 150.000 straten die de app kan lokaliseren, of bij een van de ruim 13.000 monumenten, dan krijg je oude krantenberichten te zien over wat daar ooit gebeurde: een brand, een misdaad, enzovoorts.

Ik vind de historische kranten een fantastische bron („Het nivelleeren is niet genoeg, men kan er maar weinig uit besluiten”, wist de Oprechte Haerlemsche Courant al in 1771), op één ding na: de ‘foute kranten’ uit WOII zijn pas te zien nadat je een soort disclaimer hebt aangevinkt. En dan nog slechts bladzijde voor bladzijde, wat het onderzoek ernstig bemoeilijkt.

Die disclaimer waarschuwt dat nationaal-socialistische kranten „discriminerende, beledigende of tot haat aanzettende uitlatingen” kunnen bevatten.

Dat is juist, maar deze door het ministerie van Justitie afgedwongen beperking is in mijn ogen erg selectief, want vooral gericht op antisemitische uitlatingen in de jaren dertig en veertig. Zoek antisemitische uitlatingen in de eeuwen ervoor en er wordt je geen strobreed in de weg gelegd. Zo kun je ook onbekommerd zoeken naar bijvoorbeeld domme neger, luie neger, vieze kaffer, vieze Turk of wrede Turk.

Discriminerende taal is van alle tijden. Mij lijkt dat je onderzoek ernaar moet bevorderen, niet selectief moet bemoeilijken. Veel praktischer en consequenter zou zijn: eenmalig een disclaimer aanvinken voor de complete collectie.

Ewoud Sanders schrijft wekelijks op deze plek over taal.