Digitaal doorvlooien

Het project waarbinnen zoekmachinedienst Google zo veel mogelijk boeken digitaliseert opent nieuwe mogelijkheden voor literatuuranalyse. Lucas Brouwers

Ook ernstig beschadigde bibliotheekboeken kunnen nog worden 'gered' door ze in te scannen. Rare, fragile books are seen on a cart ready to be scanned in Ann Arbor, Mich., March 21, 2008. Librarians from Minnesota to England are helping Google Inc.'s Book Search create digital versions of all the estimated 50 million to 100 million books in the world and make them readily available online for free for people everywhere. (AP Photo/Carlos Osorio) ASSOCIATED PRESS

Zoals een kunstroof te herkennen is aan de lege wand die achterblijft, bestaan de sporen van censuur uit de woorden die er niet meer zijn. Neem het geval van de Joodse kunstenaar Marc Chagall. In Duitse boeken uit de jaren twintig wordt zijn naam elk jaar vaker genoemd. Maar toen het nationaal-socialistische bewind van Adolf Hitler de schilderijen van Chagall als ‘ontaarde kunst’ aanmerkte, daalde het aantal keer dat zijn naam werd genoemd drastisch. In boeken uit de periode 1936-1944 komt zijn naam nog maar één keer voor. Door naar dergelijke patronen te zoeken, vonden de onderzoekers Jean-Baptiste Michel en Erez Lieberman Aiden van Harvard University zowel bekende als onbekende auteurs en kunstenaars die het slachtoffer zijn geworden van censuur.

De miljarden woorden die schrijvers de afgelopen zeshonderd jaar in hun boeken gebruikten, brengen culturele trends aan het licht, laten Michel en Aiden zien in een artikel dat zij deze week publiceerden in het wetenschappelijke tijdschrift Science. Ze stelden een corpus samen van vijf miljoen gedigitaliseerde boeken. De oudste boeken in dit corpus komen uit de zestiende eeuw. Nog nooit eerder bestudeerden wetenschappers boeken op deze schaal. Michel en Aiden schrijven dat geen mens het gehele corpus dan ook zou kunnen lezen. Iemand die alleen de boeken leest die in 2000 zijn uitgegeven, zou al 80 jaar van zijn leven kwijt zijn, schrijven de onderzoekers – zonder pauzes te nemen om te slapen of eten. Michel en Aiden sloten de boeken die gepubliceerd zijn voor 1800 of na 2000 uit van hun analyses.

TIJDROVEND

De vijf miljoen boeken die Michel en Aiden in hun corpus opnamen, maken deel uit van de meer dan 15 miljoen boeken die Google sinds 2004 heeft gescand. De onderzoekers schatten dat dit ongeveer twaalf procent is van alle boeken die ooit gepubliceerd zijn. Tientallen universiteiten, uitgevers en bibliotheken werkten mee aan het digitaliseren van hun collecties.

Michel en Aiden hopen met het corpus sociale wetenschappers te overtuigen van het nut van grootschalig, digitaal onderzoek. “Bij eerder onderzoek naar de evolutie van onregelmatige werkwoorden, doorzochten we tientallen boeken en oude teksten. Dat was een erg tijdrovende en arbeidsintensieve aanpak”, vertelt Michel. “Vanuit onze achtergrond in wiskunde en bioinformatica maakten we een doorzoekbaar corpus waarmee dit onderzoek sneller en efficiënter gedaan kan worden. Deze immense verzameling aan digitaal doorzoekbare boeken maakt het bovendien mogelijk om vragen stellen die voorheen onbeantwoordbaar bleven.”

Door het aantal unieke woorden per jaar te tellen, zagen zij bijvoorbeeld dat de Engelse taal springlevend is: elk jaar komen er zo’n 8.500 nieuwe woorden bij in de Engelstalige literatuur. In vijftig jaar tijd groeide de Engelse woordenschat met 70 procent, van ongeveer 600.000 woorden in 1950 tot meer dan een miljoen in 2000. Veel van deze nieuwe woorden zijn overigens nog niet terug te vinden in moderne woordenboeken. Die kunnen de sterke groei niet bijbenen. De onderzoekers vonden in woordenboeken wél veel verouderde woorden die al lang in onbruik zijn geraakt.

Daarnaast is de woordkeuze van auteurs vaak te herleiden tot historische en culturele ontwikkelingen uit hun tijd. Het gebruik van het woord ‘oorlog’ bereikt bijvoorbeeld een maximum in boeken die gepubliceerd zijn in de jaren 1918 en 1944. ‘Internet’ komt in de jaren zeventig langzaam op en stijgt vervolgens dramatisch in de recentste jaren. ‘God’ wordt door de eeuwen heen vaak genoemd, maar blijkt de laatste decennia in populariteit te zijn gedaald. In de woorden van de onderzoekers zelf: “God is niet dood, maar Hij heeft wel een nieuwe uitgever nodig.”

BEROEMDHEDEN

Ook zagen Michel en Aiden dat auteurs zich meer op het heden zijn gaan richten en dat ze ons collectieve verleden steeds sneller vergeten. Het duurde bijvoorbeeld 32 jaar voordat ‘1883’ half zo vaak genoemd werd als in 1883 zelf. Het jaar ‘1973’ had daar slechts 10 jaar voor nodig, en daalde dus drie keer zo snel in populariteit als ‘1883’. Beroemdheden volgen een soortgelijke trend. Moderne beroemdheden worden vaker genoemd dan de beroemdheden van vroeger, maar hun faam is een korter leven beschoren.

In Nederland worden ook al op grote schaal boeken ingescand. “Maar veel boekencollecties zijn in verschillende stadia van digitalisering”, zegt de Nederlandse taalkundige Nicoline van der Sijs, werkzaam bij het Meertens Instituut. “Een evenwichtig corpus dat een representatief beeld geeft van de Nederlandse taal door de eeuwen heen bestaat nog niet. Ook laat de kwaliteit van de gescande teksten soms te wensen over. Dat geldt overigens ook voor de door Google gescande boeken.”

Daarnaast zijn veel taalonderzoekers er nog niet op ingesteld om met de computer grote gegevensbestanden te doorzoeken – de stap die Michel en Aiden wel hebben gemaakt. “Veel alfawetenschappers denken nog op analoge wijze”, zegt taalkundige Irene Haslinger van de Koninklijke Bibliotheek. “De digitalisering van het onderzoeksveld schept nieuwe mogelijkheden, maar stelt ook nieuwe eisen aan onderzoekers.” De KB werkt al samen met Google om meer dan 160.000 boeken uit de achttiende en negentiende eeuw te digitaliseren – daar rust geen auteursrecht meer op.

Taalkundigen moeten leren samenwerken met computerprogrammeurs. “Het is mogelijk”, zegt Van der Sijs ook, “om digitale teksten te ‘verrijken’ zodat specifieke uitdrukkingen of spellingsvarianten herkend worden. Het zou bijvoorbeeld mooi zijn als ‘wiesch’ en ‘woesch’ worden herkend als oude verledentijdsvormen van ‘wassen’. Dat is in het corpus van Michel en Aiden trouwens ook nog niet gedaan.”

Geesteswetenschappers hoeven niet te vrezen dat digitaal doorzoekbare corpora hen in de toekomst overbodig gaan maken. In een reactie op het onderzoek van Michel en Aiden schrijft de Amerikaanse taalkundige Geoffry Nunberg in The Chronicle of Higher Education, een dagelijkse Amerikaanse krant met academisch nieuws: “Culturele trends interpreteren zichzelf niet. Daar zijn nog altijd cultuurhistorici voor nodig.”

    • Lucas Brouwers