Een kopietje maken van onze beschaving

Brewster Kahle liep binnen met een webbedrijf en wilde iets nuttigs doen: onze cultuur conserveren voor de digitale generatie. Hij begon The Internet Archive, de back-upmachine voor het web. Al 423 miljard sites zijn gearchiveerd.

Op 17 juli om 15.22 uur lokale tijd meldde de leider van de Oekraïense afscheidingsbeweging Igor Girkin, beter bekend als ‘Strelkov’, op de Russische sociale netwerksite VKontakte dat zijn strijdkrachten een Antonov-26 hadden neergehaald. Nog geen uur later was het bericht verwijderd en vervangen voor een bericht waarin iedere betrokkenheid bij het neergestorte vliegtuig van Malaysian Airlines werd ontkend. In de tussentijd was hij er kennelijk achtergekomen dat het niet om een vliegtuig van de Oekraïense luchtmacht ging, maar om een burgertoestel.

Strelkovs poging om zijn sporen uit te wissen, kwam te laat: ‘The Wayback Machine’, een onderdeel van de Amerikaanse non-profitorganisatie The Internet Archive, had de gang van zaken al vastgelegd. Een screenshot van het eerste bericht geldt nu als een belangrijk bewijsstuk voor de claim dat separatisten het toestel van Malaysian Airlines hebben neergeschoten.

Brewster Kahle (53), oprichter van The Internet Archive, is trots dat zijn organisatie op cruciale momenten een maatschappelijke bijdrage kan leveren. Maar zijn eigenlijke doel is veel groter, vertelt hij in zijn werkkamer in het monumentale pand van The Internet Archive: hij wil een digitale bibliotheek creëren met hetzelfde statuur als de legendarische bibliotheek van Alexandrië. Alle belangrijke digitale documenten moeten hier worden vastgelegd. Want: „Websites zijn de culturele documenten van deze tijd”, aldus Kahle.

Iedere twee maanden een screenshot

Kahle startte The Internet Archive in 1996, met kapitaal dat hij had vergaard dankzij de verkoop van zijn eerste internetbedrijf voor 15 miljoen dollar. Toen hij in 1999 zijn webanalysebedrijf Alexa Internet aan Amazon verkocht voor 250 miljoen dollar, was Kahle financieel binnen en legde hij zich geheel toe op The Internet Archive. „Ik wilde iets groots en blijvends creëren, voor het algemeen belang.”

Het vlaggenschip van The Internet Archive is The Wayback Machine. Daarin worden iedere twee maanden screenshots opgeslagen van zoveel mogelijk websites. Zo kun je websites terugvinden die niet langer bestaan of nagaan hoe populaire websites zich door de jaren heen ontwikkeld hebben – leuk voor zowel historici als liefhebbers van curiosa.

Naast computergegenereerde snapshots houden zo’n duizend vrijwillige web librarians dossiers bij over onderwerpen. Gevoelige onderwerpen worden intensief gemonitord, zodat niets aan de aandacht ontsnapt. Op die manier belandden de sociale mediaberichten van Strelkov door een opmerkzame vrijwilliger in het dossier Oekraïne.

Soms springt de organisatie bij in geval van nood. Zo kreeg de The Internet Archive een paniekerig telefoontje van een medewerker van het centrum voor onderzoeksjournalistiek op de Krim, op het moment dat gemaskerde pro-regeringsstrijders hun gebouw probeerden binnen te dringen. Medewerkers van The Internet Archive maakten vliegensvlug een back-up, waarmee op de valreep 16.000 pagina’s aan onderzoeksjournalistiek over corruptie binnen de Oekraïense regering werden veiliggesteld.

Populaire sites beter bewaard

The Internet Archive heeft inmiddels 423 miljard websites gearchiveerd. Hoeveel procent dit vormt van het gehele internet is volgens Kahle moeilijk te kwantificeren. Hij durft zelf geen harde cijfers te noemen; eerdere schattingen van The Internet Archive liggen op 10 procent.

Het is dan ook een reusachtige taak die The Internet Archive op zich heeft genomen: het internet kan in principe oneindig groeien. Het kost de organisatie te veel opslagruimte en rekenkracht om alles bij te houden, dus moeten er keuzes worden gemaakt. Dat gebeurt al doordat de software websites niet continu monitort, en alleen tweemaandelijkse screenshots maakt. Kahle: „De levensduur van de gemiddelde website is honderd dagen, dus met twee maanden heb je een goede kans om een site vast te leggen. Maar waterdicht is de methode natuurlijk niet.”

Van sites die weinig bezoekers hebben, worden minder screenshots gemaakt, van populaire websites juist meer. Maar met superpopulaire diensten als YouTube is het archief juist terughoudend. „YouTube groeit enorm snel en de bestanden zijn relatief groot”, legt Kahle uit. De organisatie gebruikt nu Twitter-mentions als een manier om te beoordelen of een YouTube-filmpje belangrijk genoeg is om te bewaren. Verder wordt getracht om websites die door computers worden gemaakt te vermijden, vertelt Kahle. „We willen zaken bijhouden die door mensen zijn gemaakt of in ieder geval relevant zijn voor mensen.”

De twee hete hangijzers van nu

De nadruk van The Internet Archive ligt op het conserveren van onze cultuur voor de digitale generatie. In principe gaat het om alle culturen wereldwijd, al zijn westerse sites door betere toegang tot internet oververtegenwoordigd. Naast het archiveren van websites houdt de organisatie zich ook bezig met het digitaliseren en gratis online beschikbaar stellen van films, televisieprogramma’s, muziek, software en boeken. „Alles wat we maar in handen kunnen krijgen”, aldus Kahle.

Daarbij moet het bedrijf behoedzaam omgaan met de twee hete hangijzers van het digitale tijdperk: copyrights en privacy. In principe slaat het bedrijf alleen vrij toegankelijke informatie op, en mag informatie van The Internet Archive niet voor commerciële doeleinden worden gebruikt. Als auteurs niettemin het idee hebben dat copyrights worden geschonden, kunnen ze contact opnemen met de organisatie en wordt de informatie gewist. Ook eigenaars van websites kunnen hun site uit het archief laten verwijderen.

Dat is moeilijker als het gaat om mensen die op websites worden genoemd. In mei besloot het Europese Hof dat Europese burgers het ‘recht op vergetelheid’ hebben. Google kreeg al meer dan 90.000 verzoeken om links naar sites te verwijderen. The Internet Archive heeft vooralsnog geen stortvloed aan verwijderverzoeken gekregen, zegt Kahle. Maar hij maakt zich wel zorgen: „Los van alle ethische vragen die bij het beoordelen van zulke verzoeken komen kijken, hebben we simpelweg de mankracht niet om ons daarmee bezig te houden.”

Poppen van papier-maché

De kosten van The Internet Archive – zo’n 10 miljoen dollar per jaar – worden gedekt met giften van particulieren en fondsen, waaronder dat van Kahle en zijn vrouw. De circa tweehonderd werknemers krijgen voor Silicon Valley-begrippen een klein salaris, en daarnaast werkt The Internet Archive veel met vrijwilligers.

Kahle heeft een bijzondere manier om die te eren. Iedereen die minstens drie jaar voor The Internet Archive werkt, krijgt van Kahle een papier-maché-versie van zichzelf. In een zaal in het pand staan alle poppen opgesteld in de flanken, een heel leger aan archivarissen.

Kahle heeft verschillende back-ups van zijn archief. Na eeuwenlang het centrum van westerse kennis te zijn geweest, werd de bibliotheek van Alexandrië in de vierde eeuw na Christus verwoest. Kahle heeft daarom behalve in San Francisco back-ups in het nabijgelegen Richmond, in Amsterdam, én in Alexandrië.