Hier worden 423 miljard webpagina’s voor altijd bewaard

RIJSWIJK - Kabels in een serverruimte. Criminelen gebruiken steeds vaker gebruik van netwerken in Nederland om cyberaanvallen te plegen. ANP XTRA KOEN VAN WEEL Foto ANP

Op 17 juli om 15.22 uur lokale tijd meldde de leider van de Oekraïense afscheidingsbeweging Igor Girkin, beter bekend als ‘Strelkov’, op de Russische sociale netwerksite VKontakte dat zijn strijdkrachten een Antonov-26 hadden neergehaald. Nog geen uur later was het bericht verwijderd en vervangen voor een bericht waarin iedere betrokkenheid bij het neergestorte vliegtuig van Malaysia Airlines werd ontkend.

Strelkovs poging om zijn sporen uit te wissen, kwam te laat: The Wayback Machine, een onderdeel van de Amerikaanse non-profitorganisatie The Internet Archive, had het bericht al vastgelegd. Een screenshot van het eerste bericht geldt nu als een belangrijk bewijsstuk voor de claim dat separatisten het toestel hebben neergeschoten.

Brewster Kahle (53), oprichter van The Internet Archive, is trots dat zijn organisatie op cruciale momenten een maatschappelijke bijdrage kan leveren. Maar zijn doel is veel groter, vertelt hij: hij wil een digitale bibliotheek creëren met hetzelfde statuur als de legendarische bibliotheek van Alexandrië. Alle belangrijke digitale documenten moeten hier worden vastgelegd. Want: “Websites zijn de culturele documenten van deze tijd.”

Iedere twee maanden een screenshot

Kahle startte The Internet Archive in 1996, met kapitaal van 15 miljoen dollar dat hij had vergaard dankzij de verkoop van zijn eerste internetbedrijf. Toen hij in 1999 zijn webanalysebedrijf Alexa Internet aan Amazon verkocht voor 250 miljoen dollar, was Kahle financieel binnen en legde hij zich geheel toe op The Internet Archive. “Ik wilde iets groots en blijvends creëren.”

De kosten van The Internet Archive – zo’n 10 miljoen dollar per jaar – worden gedekt met giften van particulieren en fondsen, waaronder dat van Kahle en zijn vrouw. De circa tweehonderd werknemers krijgen voor Silicon Valley-begrippen een klein salaris, en daarnaast werkt The Internet Archive veel met vrijwilligers.

Het belangrijkste onderdeel van The Internet Archive is The Wayback Machine. Daarin worden iedere twee maanden screenshots opgeslagen van zoveel mogelijk websites. Zo kun je websites terugvinden die niet langer bestaan of nagaan hoe populaire websites zich door de jaren heen ontwikkeld hebben – leuk voor zowel historici als liefhebbers van curiosa.

Naast computergegenereerde snapshots houden zo’n duizend vrijwillige web librarians dossiers bij over onderwerpen. Gevoelige onderwerpen worden intensief gemonitord, zodat niets aan de aandacht ontsnapt. Op die manier belandden de sociale mediaberichten van Strelkov door een opmerkzame vrijwilliger in het dossier Oekraïne.

Populaire sites beter bewaard

The Internet Archive heeft inmiddels 423 miljard websites gearchiveerd. Hoeveel procent dit vormt van het hele internet, is volgens Kahle moeilijk te kwantificeren. Hij durft zelf geen harde cijfers te noemen; eerdere schattingen van The Internet Archive liggen op 10 procent. Het kost de organisatie te veel opslagruimte en rekenkracht om alles bij te houden, dus moeten er keuzes worden gemaakt. Dat gebeurt al doordat de software websites niet continu monitort, en alleen tweemaandelijkse screenshots maakt. Kahle:

“De levensduur van de gemiddelde website is honderd dagen, dus met twee maanden heb je een goede kans om een site vast te leggen. Maar waterdicht is de methode natuurlijk niet.”

Van sites die weinig bezoekers hebben, worden minder screenshots gemaakt, van populaire websites meer. Maar met populaire diensten als YouTube is het archief juist terughoudend. “YouTube groeit enorm snel en de bestanden zijn relatief groot”, legt Kahle uit. De organisatie gebruikt nu Twitter-mentions als een manier om te beoordelen of een YouTube-filmpje belangrijk genoeg is om te bewaren.

Twee problemen

Naast het archiveren van websites houdt de organisatie zich ook bezig met het digitaliseren en gratis online beschikbaar stellen van films, televisieprogramma’s, muziek, software en boeken. “Alles wat we maar in handen kunnen krijgen”, aldus Kahle.

Daarbij moet het bedrijf behoedzaam omgaan met de twee gevoelige kwesties: copyrights en privacy. Als auteurs het idee hebben dat copyrights worden geschonden, kunnen ze contact opnemen met de organisatie en wordt de informatie gewist. Ook eigenaars van websites kunnen hun site uit het archief laten verwijderen. Dat is moeilijker als het gaat om mensen die op websites worden genoemd. In mei besloot het Europese Hof dat Europese burgers het ‘recht op vergetelheid’ hebben.

Uitspraak Europese Hof

Google kreeg al meer dan 90.000 verzoeken om links naar sites te verwijderen. The Internet Archive heeft vooralsnog geen stortvloed aan verwijderverzoeken gekregen, zegt Kahle. Maar hij maakt zich wel zorgen: “Los van alle ethische vragen die bij het beoordelen van zulke verzoeken komen kijken, hebben we simpelweg de mankracht niet om ons daarmee bezig te houden.”

Wat zit er in The Internet Archive?

- 423 miljard webpagina’s
- 2,1 miljoen gedigitaliseerde boeken
- 2,1 miljoen audio-opnames
- 1,7 miljoen films
- 3 miljoen uur tv-opnames
- 18 petabyte aan data