Een kopietje maken van onze beschaving

Internetmiljonair Brewster Kahle wilde iets nuttigs doen met zijn geld. Hij besloot een back-up te maken van het internet, om de digitale cultuur te bewaren. Al 423 miljard sites zijn gearchiveerd.

Beeld Boudewijn van Diepen

Op 17 juli om 15.22 uur lokale tijd meldde de leider van de Oekraïense afscheidingsbeweging Igor Girkin, beter bekend als ‘Strelkov’, op de Russische sociale netwerksite VKontakte dat zijn strijdkrachten een Antonov-26 hadden neergehaald. Nog geen uur later was het bericht verwijderd en vervangen voor een bericht waarin iedere betrokkenheid bij het neergestorte vliegtuig van Malaysian Airlines werd ontkend. In de tussentijd was hij er kennelijk achtergekomen dat het niet om een vliegtuig van de Oekraïense luchtmacht ging, maar om een burgertoestel.

Strelkovs poging om zijn sporen uit te wissen, kwam te laat: ‘The Wayback Machine’, een onderdeel van de Amerikaanse non-profitorganisatie The Internet Archive, had de gang van zaken al vastgelegd. Een screenshot van het eerste bericht geldt nu als een belangrijk bewijsstuk voor de claim dat separatisten het toestel van Malaysian Airlines hebben neergeschoten.

Brewster Kahle (53), oprichter van The Internet Archive, is trots dat zijn organisatie op cruciale momenten een maatschappelijke bijdrage kan leveren. Maar zijn eigenlijke doel is groter, vertelt hij in zijn werkkamer in het monumentale pand van The Internet Archive: hij wil een digitale bibliotheek creëren met hetzelfde statuur als de legendarische bibliotheek van Alexandrië. Alle belangrijke digitale documenten moeten hier worden vastgelegd. Want: „Websites zijn de culturele documenten van deze tijd”, aldus Kahle.

Een screenshot per twee maanden

Kahle startte The Internet Archive in 1996, met kapitaal dat hij had vergaard dankzij de verkoop van zijn eerste internetbedrijf voor 15 miljoen dollar. Toen hij in 1999 zijn webanalysebedrijf Alexa Internet aan Amazon verkocht voor 250 miljoen dollar legde hij zich toe op The Internet Archive.

Het vlaggenschip van The Internet Archive is The Wayback Machine. Daarin worden iedere twee maanden screenshots opgeslagen van zoveel mogelijk websites. Zo kun je websites terugvinden die niet langer bestaan of nagaan hoe populaire websites zich door de jaren heen ontwikkelden.

Naast computergegenereerde screenshots houden zo’n duizend vrijwillige web librarians dossiers bij over onderwerpen. Gevoelige onderwerpen worden intensief gemonitord. Op die manier belandden de sociale mediaberichten van Strelkov door een opmerkzame vrijwilliger in het dossier Oekraïne.

Soms springt de organisatie bij in geval van nood. Zo kreeg de The Internet Archive een paniekerig telefoontje van een medewerker van het centrum voor onderzoeksjournalistiek op de Krim, op het moment dat gemaskerde pro-regeringsstrijders hun gebouw probeerden binnen te dringen. Medewerkers van The Internet Archive maakten vliegensvlug een back-up, waarmee op de valreep 16.000 pagina’s aan onderzoeksjournalistiek over corruptie binnen de Oekraïense regering werden veiliggesteld.

Populaire sites beter bewaard

The Internet Archive heeft nu 423 miljard websites gearchiveerd. Hoeveel procent dit vormt van het gehele internet is volgens Kahle moeilijk te zeggen; eerdere schattingen van The Internet Archive liggen op 10 procent.

Het internet kan in principe oneindig groeien en het kost de organisatie te veel opslagruimte en rekenkracht om alles bij te houden. Dus moeten er keuzes worden gemaakt. Dat gebeurt al doordat de software tweemaandelijkse screenshots maakt. Kahle: „De levensduur van de gemiddelde website is honderd dagen, dus met twee maanden heb je een goede kans om een site vast te leggen.”

Van sites die weinig bezoekers hebben, worden minder screenshots gemaakt, van populaire websites meer. Maar met diensten als YouTube is het archief juist terughoudend. „YouTube groeit enorm snel en de bestanden zijn relatief groot”, legt Kahle uit. De organisatie gebruikt nu Twitter-mentions als een manier om te beoordelen of een YouTube-filmpje belangrijk genoeg is om te bewaren. Verder wordt getracht om websites die door computers worden gemaakt te vermijden, vertelt Kahle. „We willen zaken bijhouden die door mensen zijn gemaakt.”

De nadruk van The Internet Archive ligt op het conserveren van onze cultuur voor de digitale generatie. In principe gaat het om alle culturen wereldwijd, al zijn westerse sites oververtegenwoordigd. Naast het archiveren van websites houdt de organisatie zich ook bezig met het digitaliseren en gratis online beschikbaar stellen van films, televisieprogramma’s, muziek, software en boeken.

Het is wel uitkijken met copyrights en privacy. In principe slaat het bedrijf alleen vrij toegankelijke informatie op, en informatie van The Internet Archive mag niet voor commerciële doeleinden worden gebruikt. Als auteurs toch het idee hebben dat copyrights worden geschonden, kunnen ze contact opnemen met de organisatie en wordt de informatie gewist. Ook eigenaars van websites kunnen hun site uit het archief laten verwijderen.

Het recht om vergeten te worden

Dat is moeilijker als het gaat om mensen die op websites worden genoemd. In mei besloot het Europese Hof dat Europese burgers het ‘recht hebben om vergeten te worden’. Google kreeg al meer dan 90.000 verzoeken om links naar sites te verwijderen. The Internet Archive heeft geen stortvloed aan verwijderverzoeken gekregen, zegt Kahle. Maar hij maakt zich wel zorgen: „We hebben niet de mankracht om ons daarmee bezig te houden.”

Poppen van papier-maché

De kosten van The Internet Archive – zo’n 10 miljoen dollar per jaar – worden gedekt met giften van particulieren en fondsen, waaronder dat van Kahle en zijn vrouw. De tweehonderd werknemers krijgen voor Silicon Valley-begrippen een klein salaris, en daarnaast werkt The Internet Archive veel met vrijwilligers.

Kahle heeft een bijzondere manier om die te eren. Iedereen die minstens drie jaar voor The Internet Archive werkt, krijgt een papier-maché-versie van zichzelf. Die poppen staan in dezelfde zaal als de servers van het Internet Archive. Kahle: „Ik wil dat mijn mensen direct naast hun servers zitten en er een intieme band mee hebben. Servers zijn niet eng, ze zijn de dragers van deze tijd.”

Voor het geval een van die dragers het begeeft, heeft Kahle voor de zekerheid wel backups van het archief in drie andere datacentra opgeslagen.