Schoendozenlexicografie exit; 'Een corpus kan nooit groot genoeg zijn - gerust 100 tot 200 miljoen woorden'

Lexicografen die hun woordenboek samenstellen op basis van schoenendozen met knipsels sterven uit. Een moderne woordenboek komt uit uit een computerbestand met miljoenen woorden.

Vorige maand kwamen in Amsterdam zo'n driehonderd lexicografen uit de hele wereld bijeen om te praten over de ontwikkelingen op hun vakgebied. Een belangrijk onderwerp daarbij was de zogeheten corpuslexicografie: hoe maak je uit een computerbestand met tientallen miljoenen woorden een woordenboek?

De theorie van corpuslexicografie is simpel. Het idee is dat een grote hoeveelheid digitaal opgeslagen tekst, zeg zo'n vijftig tot honderd miljoen woorden, alles in zich bergt wat een lexicograaf wil weten: nieuwe woorden, vaste combinaties van woorden, spellingwijzigingen, betekenisveranderingen, veel voorkomende fouten, frequentie - kortom, allemaal zaken die bij het samenstellen van een goed, liefst wetenschappelijk onderbouwd woordenboek van groot belang zijn.

Het idee dat een woordenboek moet worden samengesteld op basis van een grote hoeveelheid materiaal, is niet nieuw. Ook bij grote wetenschappelijke woordenboeken als het Woordenboek der Nederlandsche Taal (WNT) en de Oxford English Dictionary (OED) is gebruik gemaakt van tienduizenden zogeheten bewijsplaatsen: citaten uit allerlei geschreven bronnen die in de loop van tientallen jaren bijeen zijn gelezen door vrijwilligers. De OED is enkele jaren geleden in z'n geheel in de computer gezet, maar bij het WNT werkt men nog steeds zoals in de 19de eeuw: met tienduizenden fiches die door een redacteur worden gerangschikt en geanalyseerd.

Het nadeel van de laatste methode is evident. Niet alleen kost het verzamelen en rangschikken ontzettend veel tijd, er wordt ook van alles over het hoofd gezien. Een bekend voorbeeld is het woord 'van'. Toen de redactie van het WNT dit woord wilde gaan beschrijven, bleken hier helemaal geen bewijsplaatsen voor te zijn. Een redacteur besteedde vervolgens een vol jaar aan het doornemen van oude delen van het WNT op zoek naar combinaties met het woord 'van'.

Het is niet zo moeilijk om uit te rekenen hoeveel tijd dit zou hebben gekost als het WNT op schijf zou hebben gestaan, wat overigens binnen een jaar het geval zal zijn: minder dan een minuut. Natuurlijk moeten al die bewijsplaatsen dan nog worden geanalyseerd, maar het materiaal komt met enkele toetsaanslagen beschikbaar.

Historische woordenboeken zullen altijd voor een belangrijk deel met de hand moeten worden samengesteld. Er is nu eenmaal slechts een beperkt aantal oude teksten digitaal beschikbaar. Maar voor de huidige tijd ligt dat heel anders: van vrijwel alle tekst die nu wordt gepubliceerd bestaat een digitale versie.

Hoe bemachtig je die teksten, welke teksten moet je hebben, hoe sla je ze vervolgens op en hoe voorkom je dat de bewerker in het materiaal verzuipt? Het was de centrale vraag op het Euralex-congres vorige week in Amsterdam.

Kort gezegd staat de corpuslexicografie er internationaal als volgt voor: Italië heeft grote ambities maar weinig in handen, Frankrijk had ooit een grote voorsprong - het idee voor corpuslexicografie is daar in 1959 gelanceerd - maar hobbelt nu als gevolg van verouderde technieken achteraan, Duitsland is zijn achterstand hard aan het inhalen en de voorhoede wordt ingenomen door de Scandinavische landen en door Engeland. Nederland slaat internationaal niet zo'n gek figuur, want zowel in Amsterdam als in Leiden wordt gewerkt aan de theoretische en praktische kanten van corpuslexicografie.

De grootste materiaalverzameling bevindt zich in Leiden, bij het Instituut voor Nederlandse Lexicologie (INL). De zogeheten Taalbank bestaat uit drie onderdelen: er is een corpus van circa 2 miljoen Vroegmiddelnederlandse woorden, er is een corpus van 55 miljoen woorden uit bronnen sinds 1970 en er is een corpus van 5 miljoen hedendaagse woorden. Dat laatste corpus is sinds kort beschikbaar op Surfnet en het verst ontwikkeld: je kunt hierin onder andere zoeken op woordsoort en op vaste verbindingen van woorden, bijvoorbeeld 'uit het lood slaan'. Men is doende om ook het corpus van 55 miljoen woorden 'taalkundig te verrijken', zoals het daar heet.

Vijfenvijftig miljoen woorden, dat klinkt buitengewoon indrukwekkend. Dat wordt al een stuk minder als je weet dat jaargang 1992 van deze krant - onlangs op tape aangeschaft door het INL - alleen al 21 miljoen woorden telt. Met een jaargang Volkskrant erbij - die anders dan NRC Handelsblad al op CD-rom beschikbaar is - zit je zo aan de 50 miljoen woorden.

Ook prof.dr. P.G.J. van Sterkenburg, directeur van het INL, benadrukt de beperkingen van de Taalbank. “In de eerste plaats zijn de inspanningen van ons instituut erop gericht het WNT te voltooien. De Taalbank is een bestand in opbouw.”

Aanvankelijk heeft het INL, net als veel andere instellingen, veel tijd geïnvesteerd in de vraag hoe je een representatief corpus opzet. Immers, wil je, zoals het INL van plan is, op den duur een wetenschappelijk woordenboek samenstellen van het Nederlands van de 20ste eeuw, dat moet de taal van alle groepen van de maatschappij in het corpus vertegenwoordigd zijn. Althans, dat dacht men tot voor kort. Inmiddels heeft men die koers verlaten, niet alleen bij het INL maar ook elders. Van Sterkenburg: “Een representatief corpus bestaat niet. In theorie zouden daarin alle lagen van de taal vertegenwoordigd moeten zijn. Formeel taalgebruik, informeel taalgebruik, spreektaal en schrijftaal. Varianten als leeftijd, opleiding, beroep, milieu, man, vrouw, regio - daar zou je allemaal rekening mee moeten houden. We hebben aan specialisten gevraagd: noem vijf bronnen op je vakgebied die in een corpus als dit niet zouden mogen ontbreken. Niet alleen zijn die deskundigen het onderling sterk oneens, zelfs als je die bronnen zou kunnen bemachtigen dan heb je nog geen garantie dat het corpus dekkend is. Mijn conclusie is: je hebt algemene bronnen nodig, literaire bronnen en bronnen met vaktaal. Het is van belang een onderscheid te maken in stijl, in regionaal en sociaal taalgebruik. Daarnaast heb je altijd 'handwerkers' nodig: mensen die lezen en citaten aanleveren. Ondertusen kan een corpus nooit groot genoeg zijn, gerust honderd tot tweehonderd miljoen woorden.”

Zover zijn we in Nederland nog niet, maar wel in Engeland, het Mekka van de wetenschappelijke lexicografie. Nederlandse lexicografen die een bezoekje brengen aan Oxford of Cambridge komen meestal groen van jaloezie terug. Zo kunnen lexicografen van de Oxford University Press niet alleen beschikken over het British National Corpus, een bestand van 100 miljoen woorden dat in korte tijd uit de grond is gestampt door een consortium van vijf grote woordenboekenuitgevers in samenwerking met de Britse overheid. Daarnaast hebben ze nog toegang tot een corpus gesproken Engels van zo'n 6 miljoen woorden en een historisch tekstcorpus met 2 miljoen woorden. Bovendien heeft woordenboekenuitgever Collins de beschikking over een eigen corpus van naar schatting 150 miljoen woorden.

De snelheid waarmee deze bestanden werken is verbluffend. Vorig jaar, toen het British National Corpus nog 'maar' 50 miljoen woorden telde, kreeg je binnen twee minuten antwoord op de vraag hoe vaak het woord 'Dutch' in het bestand voorkwam: in 1664 citaten die vervolgens keurig geordend op het scherm verschenen.

Verbeteren

Wat moet een lexicograaf in hemelsnaam aanvangen met 1664 citaten? Leslie Brown en Sue Atkins, twee vooraanstaande Engelse lexicografen die vorige week aan het Euralex-congres deelnamen, zijn hier beiden even stellig over: het woordenboek verbeteren. Leslie Brown, hoofdredacteur van de vorig jaar verschenen New Shorter Oxford English Dictionary: “In de praktijk schiet je redelijk snel door het materiaal. Je kunt de zoekopdracht ook verfijnen, zodat je minder citaten overhoudt. En vergeet niet, voordat we deze schat aan citaten tot onze beschikking hadden, kostte het erg veel tijd om bijvoorbeeld een definitie te maken. Je moest daarbij veel meer uitgaan van je eigen intuïtie. Zo van: ik denk dat een woord dit en dit betekent. Nu word je regelmatig door het bronnenmateriaal teruggefloten. Een betekenis waarvan je dacht 'die bestaat niet', blijkt tientallen keren in het corpus voor te komen.”

“Het is schrikbarend om te ontdekken”, vult Sue Atkins haar aan, “wat er allemaal niet in woordenboeken staat en hoeveel fouten erin voorkomen. Corpuslexicografie verheft lexicografie tot een echte wetenschap in die zin dat beweringen in een woordenboek nu beter worden gestaafd. Waarmee ik natuurlijk niet wil beweren dat woordenboeken straks door computers kunnen worden gemaakt: in ons vak is de computer er voor het donkey work.”

Internationaal steekt men veel tijd in de vraag hoe dit donkey work verder kan worden verfijnd. Het verst is men daarmee in Birmingham. Daar heeft men het prototype ontwikkeld van een zogeheten monitorcorpus: geavanceerde software vergelijkt de inhoud van nieuw materiaal met bestaande informatie. Wat het oude corpus al 'weet' wordt eruit gehaald, nieuwe informatie wordt slechts gestaafd met bijvoorbeeld het oudste, het op één na oudste en het jongste citaat. Belangrijke taalontwikkelingen worden zo door de computer uit de enorme woordenbrij gevist. Op Europees niveau zijn afspraken gemaakt om dit systeem ook toe te passen op corpora in onder meer Mannheim, Parijs, Barcelona en Leiden. De laatste dagen van de schoenendozenlexicograaf zijn nu echt geteld.