Vechten tegen digitaal geheugenverlies

Webarchieven De website die je gisteren las, is vandaag alweer gewijzigd. Hoe kun je zoiets veranderlijks als internet archiveren?

Illustratie: Thomas Schats

Wie naar vd.nl surft, ziet een dankwoord en wat praktische informatie over de gesloten warenhuisketen. De vroegere paarsgrijze website, met een webshop en een ‘stijlblog’, bestaat niet meer. Toch is de site niet helemaal verdwenen. De Amerikaanse non-profitorganisatie Internet Archive heeft jarenlang met computerprogramma’s automatisch kopieën gemaakt van de site, net als de Koninklijke Bibliotheek (KB) in Den Haag. Steeds meer instellingen realiseren zich wat het belang is van webarchivering.

Het hele internet permanent archiveren is onhaalbaar: het wereldwijde web is simpelweg te groot. Instellingen als het Internet Archive en nationale bibliotheken trekken zich het lot aan van onze gezamenlijke webgeschiedenis. Een veranderende webpagina lijkt namelijk iets onschuldigs, maar kan veel schade berokkenen. Juridisch bewijsmateriaal verdwijnt en politici kunnen doen alsof ze bepaalde beloftes nooit hebben gedaan. Bij wetenschappelijke studies worden online bronnen geciteerd, maar links in voetnoten blijken ‘dood’. Voor toekomstige cultuurhistorici maakt digitaal geheugenverlies het bovendien lastig om het verleden te bestuderen.

Dode links

Websites zijn veel vergankelijker dan mensen beseffen, zegt de Belgische Herbert Van de Sompel. Hij is informatiewetenschapper bij het Amerikaanse Los Alamos National Laboratory en is gespecialiseerd op het gebied van webarchiveren. „Toen Tim Berners-Lee in 1989 het web definieerde, deed hij dat niet met een tijdscomponent”, zegt hij. „Je gaat naar een bepaalde url en ziet wat daar vandaag staat; misschien stond er gisteren iets anders. Daarom hebben we archieven nodig.”

Van de Sompel deed wetenschappelijk onderzoek naar ‘reference rot’. Met die term wordt verwezen naar twee problemen: links naar pagina’s die niet meer werken, en informatie op de gelinkte pagina die is veranderd. Met collega-wetenschappers ontdekte hij dat na een jaar 10 tot 15 procent van de links in wetenschappelijk werk niet meer werkt. In een op de drie referenties naar websites in wetenschappelijke teksten was de origineel geciteerde informatie verdwenen. Het werk wordt daarmee minder waardevol.

Expres onvindbaar

Soms verdwijnt online informatie moedwillig. De Britse Conservative Party verwijderde in 2013 tien jaar aan speeches van haar eigen website. Een woordvoerder verklaarde aan de Britse pers dat de partij dat deed om de site gebruiksvriendelijker te maken. Tegelijkertijd gebood de partij het Internet Archive echter om dezelfde webpagina’s voor iedereen onzichtbaar te maken. In The Telegraph reageerde parlementslid Sheila Gilmore van de Labour Party: „Er is meer nodig dan David Cameron die op ‘delete’ drukt, om mensen alle verbroken beloftes te doen vergeten.”

Het in San Francisco gevestigde Internet Archive, nog altijd veruit het grootste webarchief, begon in 1996. De instelling wil in principe alle websites archiveren. Het gebruikt daarvoor zogeheten ‘bots’, die eens in de zoveel tijd automatisch websites langsgaan en pagina’s opslaan, tenzij sites zelf aangeven niet te willen dat dit gebeurt.

Tegenwoordig zijn er wereldwijd enkele tientallen grootschalige online toegankelijke webarchieven. Maar veel nationale archieven kan je niet bezoeken via het web, alleen in het gebouw zelf, vertelt Van de Sompel. „Bijvoorbeeld die van de KB en de nationale bibliotheken van Frankrijk en Duitsland. Zij worden beperkt door wetgeving, bijvoorbeeld over auteursrechten.”

Nu.nl wordt dagelijks gearchiveerd door de Koninklijke Bibliotheek

De aanpak van het Internet Archive is oppervlakkig, stelt Frank Huysmans, bijzonder hoogleraar Bibliotheekwetenschap van de Universiteit van Amsterdam. „Vaak vind je de hoofdpagina wel terug, maar de onderliggende pagina’s niet of onvolledig. Als bibliotheken archiveren doen ze dat bij doelgericht gekozen sites juist grondig. Zo vullen het Internet Archive en webarchieven van bibliotheken elkaar aan.”

De KB begon in 2007 met het opslaan van allerlei websites over de Nederlandse cultuur, overheid en geschiedenis. Collectiespecialisten proberen een zo goed mogelijke verzameling te maken. Nu.nl wordt bijvoorbeeld dagelijks gearchiveerd, websites die minder vaak veranderen maar eens per jaar. De KB helpt verder andere Nederlandse instellingen en gemeentelijke archieven om webpagina’s te bewaren. Het Nederlands Instituut voor Beeld en Geluid archiveert bijvoorbeeld meer dan honderd websites, waaronder die van veel publieke en commerciële omroepen. Elk half jaar maakt het instituut een week lang kopieën.

Webarchieven zijn echter nog verre van perfect, vindt Van de Sompel. „Het Internet Archive laat soms webpagina’s zien die niet echt hebben bestaan. Door technische fouten staan er in de gearchiveerde pagina’s soms afbeeldingen die veel ouder zijn dan de tekst.” Een ander bezwaar: uit onderzoek blijkt dat het Internet Archive veel meer opslaat van websites uit westerse landen dan van websites uit bijvoorbeeld Arabische landen.

Online tijdreizen

Van de Sompel ontwikkelde zelf de tool Memento tegen digitaal geheugenverlies: een soort online tijdreizen, te vinden via timetravel.mementoweb.org. Gebruikers geven een webadres en een datum en de technologie brengt ze, meestal, naar de oude versie. Daarvoor wordt een van de vele webarchieven gebruikt, of wordt via de server een oude versie opgehaald.

Ook op andere manieren wordt geprobeerd digitaal erfgoed te bewaren. Zo is er het Handle-systeem, bedacht door de Amerikaanse wetenschapper Robert Kahn. Een webadres krijgt daarbij bijvoorbeeld een permanent identificatienummer, waardoor links blijven werken. Het wordt door meer dan tienduizend universiteiten, bibliotheken en andere instellingen gebruikt, in meer dan 74 landen.

Van de Sompel waarschuwt dat het geen sluitende oplossing is. „Deze methodes zijn bedacht voor instellingen die een goed beheerde collectie willen en die er belang bij hebben dat links naar hun websites blijven werken”, zegt hij. „Als je kijkt naar de doorsnee websitebeheerder kan het hem niets schelen of de informatie er morgen nog is. Van het overgrote deel van het web zijn de links in gevaar.”