Column

Taal als struikelblok

De afgelopen jaren zijn er zoveel historische teksten gedigitaliseerd dat ze onmogelijk allemaal door mensen gelezen en geanalyseerd kunnen worden. Daarom verwachten historici en andere geesteswetenschappers veel van de geautomatiseerde analyse van big data – zoals dergelijke kolossale dataverzamelingen tegenwoordig worden genoemd.

Afgelopen zaterdag schreef Bas Blokker in NRC een interessant stuk over deze ontwikkeling, die bekendstaat als Digital Humanities 2.0. Digital Humanities 1.0 dateert uit de jaren zeventig, toen historici gebruik gingen maken van grote databanken met gestructureerde data. Het huidige onderzoek richt zich op ongestructureerde data – voornamelijk op teksten in oude boeken, kranten en tijdschriften. Eén van Blokkers conclusies: je telt als hedendaagse historicus pas mee als je met big data aan de slag gaat.

Voor mij is dat goed nieuws want ik ben historicus en al jaren dagelijks bezig met big data. Sterker nog: vrijwel alle stukjes in deze rubriek zijn gebaseerd op onderzoek in grote datacollecties op internet en/of in eigen beheer.

We moeten dus niet al te grote verwachtingen hebben van het heilige uitgangspunt van Digital Humanities 2.0: zoekalgoritmes die automatisch patronen herkennen in ongestructureerde data. Om te beginnen zijn de grootste digitale collecties oude teksten niet alleen ongestructureerd, maar ze bevatten enorm veel ruis. De teksten zijn namelijk met een tool (ocr) uitgetikt door de computer en daarbij zijn enorm veel fouten gemaakt. Sommige tikfouten zijn min of meer structureel en dus voorspelbaar, maar de meeste zijn volkomen willekeurig – wat onoverkomelijk is voor zoekalgoritmes.

Het tweede grote probleem is de taal. Een voorbeeld. De afgelopen jaren heb ik veel onderzoek gedaan naar joodse geschiedenis. Mijn ervaring is dat veel mensen bij een dergelijk onderzoek oude teksten gaan doorzoeken op woorden als jood en joden. De meeste onderzoekers houden wel rekening met afleidingen, spellingvarianten, meervoudsvormen en samenstellingen, maar lang niet iedereen is erop bedacht dat joden in Nederland lange tijd Israëlieten of Hebreeërs zijn genoemd. Dan wel zonen, dochters, kinderen of nakroost van Abraham. Of kinderen van Juda of Israël en leden van de natie.

Dit zijn zoektermen en woordcombinaties (ik deed slechts een kleine greep uit een veel langere lijst) die je pas ontdekt nadat je veel bronnen grondig hebt bestudeerd. Al lezend ontdek je dat in veel oude literaire teksten joodse personages slechts herkenbaar zijn aan hun naam of uiterlijk. Joodse mannen heten er bijvoorbeeld Levi, Izaäk of Nathan; joodse vrouwen Rachel, Esther, Rebecca of Saartje – ook nu weer met allerlei spellingvarianten (Isaäc, Sara). In sommige oude teksten staat dat joden een jodenneus hebben, maar in een boek uit 1918 las ik: ,,Dat zij tot het volk der Joden behoorde, bleek uit een zeker iets in haar gelaat, dat zelden bedriegt.’’ Een algoritme dat simpelweg zoekt naar jood/joden in de nabijheid van neus/neuzen zou een dergelijke vindplaats missen, terwijl het juist zo veelzeggend is dat hier voor een eufemistische omschrijving is gekozen.

De verwachtingen van automatische patroonherkenning zijn erg hooggespannen, zeker ook bij de subsidiegevers, maar mijn ervaring is dat handmatig slim en creatief zoeken in big data tot nu toe gemiddeld twee keer zoveel nuttige bronnen oplevert.