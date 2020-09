Het is een enorme schat materiaal, die nog maar nauwelijks ontsloten is. Verspreid over musea in de hele wereld liggen meer dan 600.000 kleitabletten met daarop 10 miljoen woorden in de uitgestorven Akkadische taal te wachten op ontcijfering. Die arbeid verloopt traag omdat maar weinig mensen deze spijkerschriftteksten kunnen lezen. Bijkomende moeilijkheid: veel kleitabletten zijn beschadigd, waardoor tekens ontbreken. Wie ze wil lezen, moet dus eerst de tekst completeren.

Hulp van de computer hierbij lijkt nu aanstaande. Een groep Israëlische wetenschappers heeft een algoritme ontwikkeld dat ontbrekende tekens in eenvoudige teksten in 85% van de gevallen correct wist in te vullen. Ze publiceerden hun onderzoek vorige week in het tijdschrift PNAS.

Akkadisch is een semitische taal die werd genoteerd in syllabisch spijkerschrift: elk teken is een lettergreep (maar soms ook een woord). De taal ontstond in het derde millennium voor Christus in wat nu Irak is en verspreidde zich over het Nabije Oosten. De opeenvolgende rijken van Babyloniërs, Assyriërs en Perzen maakten er gebruik van. In de late bronstijd was het de taal waarin alle internationale correspondentie werd afgedaan, ook door bijvoorbeeld Egyptenaren, die zelf een ander schrift hadden.

De Israëlische wetenschappers gebruikten voor hun onderzoek 1.400 Akkadische teksten uit het Perzische rijk van de Achaemeniden, een dynastie die tussen 539 en 331 voor Christus de scepter zwaaide over het Nabije Oosten. (Ze zijn bekend van de Grieks-Perzische oorlogen en werden uiteindelijk verslagen door Alexander de Grote.)

De computer bekeek enkel teksten van administratieve of economische aard – inventarislijsten, rekeningen, contracten – omdat die vanwege hun structuur makkelijker te doorgronden zijn voor een kunstmatig neuraal netwerk. Het ging om reeds door mensen getranscribeerde teksten: het daadwerkelijk lezen van fysieke kleitabletten is digitaal nog niet mogelijk.

Nadat het algoritme op deze manier geleerd had hoe dit soort documenten in elkaar stak, kreeg het programma teksten te lezen waaruit spijkerschifttekens waren weggelaten. Als er één teken ontbrak, lukte het in 85 procent van de gevallen om de juiste suggestie te doen. In 93 procent van de gevallen zat het juiste karakter bij de eerste drie suggesties. De fouten die de computer maakte, hadden vaker te maken met een gebrekkige semantische kennis dan met de grammatica. Dat verbaast niet, aldus de onderzoekers. Het lag voor de hand dat het programma er beter in zou slagen de regels van de taal te doorgronden dan woordenschat te leren.

Gimmick

Als er meer tekens werden weggelaten, deed het algoritme nog steeds nuttige suggesties. Bij twee ontbrekende tekens had de computer het in 48 procent van de gevallen in één keer goed. Bij drie missende karakters ging het in 24 procent van de opgaven meteen goed.

De onderzoekers ontwikkelen de webtool Atrahasis zodat hun programma ook door anderen gebruikt kan worden. Zo hopen ze dat het algoritme verder leert en op gegeven moment ook in staat zal zijn wetenschappelijke, religieuze en literaire teksten te reconstrueren.

Caroline Waerzeggers, hoogleraar Assyriologie aan de Universiteit Leiden, vindt de toepassing „voorlopig nog een gimmick, maar het heeft zeker potentie. De onderzoekers hebben het type tekst gebruikt dat het makkelijkst onder de knie te krijgen is en daaruit de makkelijkste termen weggelaten, maar het is duidelijk een stap in een nieuwe richting. Ik ben benieuwd hoe dit zich verder ontwikkelt.”

De fouten die het programma nu nog maakt zou ze „niet willen zien bij een eerstejaars student”, zegt Waezeggers. „Het is ook niet geschikt om mensen met een gebrekkige kennis van de taal met deze tabletten te laten werken, zoals de auteurs beweren, want je hebt nog een expert nodig om te controleren of de suggestie van het programma de juiste is.”