Een gat van 152 blz.

Op 29 september 1995 werd op de voorpagina van deze krant de komst van een spectaculaire cd-rom aangekondigd. “Vandaag is in Leiden”, zo stond er, “de cd-rom van het Woordenboek der Nederlandsche Taal (WNT) gepresenteerd, het wetenschappelijke mammoetwoordenboek waaraan sinds 1851 wordt gewerkt.

Het Woordenboek, dat in boekvorm 38 banden telt en daarmee het grootste ter wereld is, beschrijft het Nederlands van grofweg 1500 tot 1921 en behandelt ongeveer 300.000 woorden.'' In de Wetenschapsbijlage werd uitvoerig uit de doeken gedaan hoe de cd-rom tot stand was gekomen. De Rotterdamse uitgever AND Electronic Publishing had het woordenboek in Pondicherry in India laten uittikken. Zo'n vijftig typisten waren daar zeven maanden mee bezig geweest. Zij hadden ruim 45.000 bladzijden uitgetypt en van codes voorzien.

“Nu lijkt het zeer riskant”, aldus de Wetenschapsbijlage, “om Nederlandse teksten te laten uittikken door mensen die die taal niet beheersen, maar het bedrijf in Pondicherry gaf contractueel een nauwkeurigheidsgarantie van maximaal één fout op 15.000 tekens. Om dit te halen is het WNT niet één maar twee keer

helemaal uitgetikt, en twijfelachtige passages zelfs drie keer. Een computerprogramma vergeleek de teksten en spoorde de verschillen op. Bij

de eerste steekproeven werden er nauwelijks tikfouten gevonden, maar intensief gebruik moet leren of men in Pondicherry werkelijk zo weinig steken heeft laten vallen.''

Welnu, u kunt er zeker van zijn dat het WNT sindsdien intensief is gebruikt. Behalve als woordenboek heeft het namelijk onschatbare waarde als historisch tekstcorpus. In totaal bevat de cd ruim veertig miljoen woorden, waardoor je op allerlei manieren kunt zoeken. Tientallen particulieren hebben hem de hele dag 'open staan' en ook bij universiteiten en woordenboekuitgevers wordt hij voortdurend geraadpleegd.

Zijn er in die tijd veel tikfouten gevonden? Ach, je komt ze regelmatig tegen. Sommigen menen zelfs dat je niets uit het elektronische WNT mag citeren zonder dit in de papieren editie na te zien. Toch valt hier goed

mee te leven. En ook wel met het feit dat je sommige artikelen helemaal niet kunt raadplegen. Zo gooit de applicatie je eruit als je het artikel

winkelhaak opent. Ernstiger is al dat alle koppeltekens aan het eind van

de regel als afbrekingsteken zijn geïnterpreteerd. Zo wordt klok-en-hamer tot klok-enhamer en staat enhamer in de woordindex. Lastig

is ook dat sommige artikelen per ongeluk in een ander artikel zijn geplakt. Deze week verschijnt in het vakblad Trefwoord een artikel van Gijs Nederlof waarin alle soorten fouten op een rijtje zijn gezet. Alles

bij elkaar zijn het er toch wel erg veel.

Zijdelings wordt in Trefwoord een nog veel grotere fout onthuld. Deze fout werd eind vorig jaar ontdekt door de Utrechtse wetenschapper Nicoline van der Sijs. Van der Sijs is onder meer de bewerker van het Etymologisch woordenboek van Van Dale. Voor dat woordenboek zocht zij structureel de datering van ruim 30.000 woorden na. Op een gegeven moment viel het haar op dat in een bepaald traject van het WNT gangbare woorden ontbraken. Klopte het inderdaad dat het WNT geen apart artikel had gewijd aan bijvoorbeeld research, reservaat, reserve en reservist? En was ook aan restant, resorteren en respons geen lemma gewijd?

Van der Sijs pakte het papieren WNT erbij en viel van haar stoel. Tussen

reren en restaurant bleken alle ingangen verdwenen te zijn. Niet vijftig

bladzijden, niet honderd, maar 152! Dat zijn 304 kolommen, met zeker 150.000 woorden tekst. Hoezo, een garantie van maximaal één fout op 15.000 tekens? Dit moest wel de grootste tikfout aller tijden zijn.

Bij AND Electronic Publishing zijn ze niet blij met deze ontdekking. Het

bleek niet te achterhalen hoe een en ander tot stand is gekomen. Een deel van het WNT is uitgetikt, maar er was ook al het nodige met een scanner ingelezen. Bovendien is met zettapes gewerkt. Ergens moet iets fout zijn gegaan, dat is duidelijk.

Belangrijker is de vraag wat er nu aan wordt gedaan. De cd-rom kostte indertijd maar liefst 1995 gulden. Inmiddels is die prijs tot 395 gulden

verlaagd, maar ook voor dat geld koop je liever geen boek met een gat erin. Aan het eind van het jaar moet de papieren editie van het WNT, na honderdvijftig jaar stug doorwerken, klaar zijn. AND overweegt om dan een nieuwe cd uit te brengen, waarop het gat wordt gedicht. Ook de laatste letters van het alfabet en de aanvullingsdelen krijgen daarop een plaatsje. Hoe een en ander met de huidige bezitters van de cd-rom wordt geregeld, is nog niet duidelijk. Vooralsnog schrijft AND brieven waarin 'het hele WNT op één cd-rom' te koop wordt aangeboden. Dat is hoe dan ook onjuiste informatie.