Informatie? Snel weg!

We verzuipen in de informatievloed - maar hoe groot is die eigenlijk? Onderzoekers aan de universiteit van Berkeley hebben geprobeerd er een zo precies mogelijke schatting van te maken. Een boek over de macht, en de ongrijpbaarheid, van het grote getal.

In stukken over de informatiemaatschappij lees je wel eens over mensen die verzuipen in de informatie-overvloed. Maar hoe groot is die informatietoename? Met een team van de universiteit van Berkeley in Californië hebben Peter Lyman en Hal Varian (bekend als mede-auteur van Information Rules uit 1999, het beste boek tot nu toe over de informatie-economie) dat proberen te berekenen. Dat was bij mijn weten nooit eerder gebeurd.

Zij doen dat door alle informatiecategorieën – drukwerk, film, geluidsmateriaal, gegevens in databanken – een voor een systematisch na te lopen en telkens zo precies mogelijke schattingen te maken van de bestaande hoeveelheid en de groei ervan. Dat is niet alleen fascinerend, het is ook van belang voor bedrijven die zich specialiseren in data-opslag, zoals EMC dat het onderzoek financierde. De Financial Times berichtte medio oktober dat die opslag de datagroei nauwelijks kan bijbenen.

Om u een idee te geven: jaarlijks worden ongeveer een miljoen boeken uitgegeven. Toch vormt gedrukt materiaal in al zijn vormen slechts 0,003 procent van het totaal aan informatie.

Tot 1999 produceerde de mensheid 12 exabyte informatie. Sindsdien zou die hoeveelheid verdubbeld zijn. Data-opslagbedrijf EMC houdt op zijn website (www.emc.com) met een teller bij hoeveel informatie er sinds 1 januari 2001 geproduceerd zou zijn, en die staat alweer boven 12 exabyte. Met één byte kun je één karakter weergeven; op 5 megabyte (5 miljoen byte) kun je het hele werk van Shakespeare opslaan, maar nauwelijks 30 seconden video. Voor één terabyte, dat wil zeggen één 1 miljoen megabyte, heb je 1 miljoen boeken nodig van gemiddelde omvang, dus de jaarlijkse productie. De totale gedrukte collectie van de grootste bibliotheek ter wereld, de US Library of Congress, wordt geschat op 10 terabyte.

Een exabyte is 1 miljoen terabyte en dus 100.000 keer die bibliotheek. Als we Berkeley en EMC mogen geloven, dan groeit de informatievoorraad nu dus jaarlijks met ongeveer 6 à 7 exabyte.

Wat verklaart deze informatie-explosie? Lyman en Varian wijzen sterk in de richting van e-mail. De totale hoeveelheid e-mails alleen is al 500 keer zo omvangrijk als het hele world wide web. Ten tijde van het onderzoek groeide dat web weliswaar met ongeveer 7,3 miljoen pagina's per dag; ik kan me inbeelden dat dit nu wat minder is. Maar dat leidt in totaal tot niet meer dan 50 terabyte. Maar dan de e-mailtjes: in 2000 ongeveer 1 biljoen. Dat leidt tot een veelvoud aan terabytes: ongeveer 20.000, schatten de onderzoekers. Oké, dat is veel, maar daarmee komen we niet aan die miljoenen terabytes per jaar. Waar zitten die dan wel?

We moeten in twee richtingen zoeken. De eerste is het zogenaamde `diepe web', de vele gespecialiseerde databases die via het world wide web al dan niet vrij toegankelijk zijn. De onderzoekers schatten dit soort documenten en bestanden op ongeveer 550 miljard, goed voor 7.500 terabyte. De twee grootste sites van dit diepe web alleen al (die van de ruimtevaartorganisatie NASA en het National Climatic Data Center in de Verenigde Staten) omvatten bijna 600 terabyte of 7,8 procent van het diepe web. Maar dat geeft gelijk aan dat veel van deze `informatie' niet veel meer is dan eindeloze reeksen ruwe data. Dan nog komen we met deze data bij verre niet in de buurt van nog maar 1 exabyte.

Een hint van waar we die bulk aan bytes moeten zoeken, blijkt uit de vergelijking tussen de complete Shakespeare en 30 seconden video. Toch vertegenwoordigen de 4.000 films die er per jaar worden geproduceerd slechts 16 terabyte. Daarentegen leiden de 82 miljard foto's per jaar tot 410.000 terabyte – het grootste getal in de tabellen. Home video voegt daar nog eens 300.000 terabyte aan toe. Zelfs röntgenfoto's van ons allen wegen twee keer zo zwaar als de hele inhoud van het world wide web, het `diepe' meegerekend. De onderzoekers hebben het dan ook over de `democratisering van de data': de meeste data komen van burgers als u en ik.

Allemaal heel indrukwekkend, maar toch kan ik me niet aan de indruk onttrekken dat de onderzoekers wat te veel op grote getallen uit waren en alles daarom zwaar aanzetten. Ten eerste blijkt dat de meeste data (al die getallenreeksen bijvoorbeeld) nog geen informatie zijn. Bovendien komt de grootste explosie van audio en video, relatief weinig dichte `informatie', die veel ruimte opeist. Daar komt nog bij dat juist bij die laatste componenten de schattingsmarges erg breed zijn: over foto's zeggen de auteurs dat de jaarlijkse groei ergens tussen 41.000 en 410.000 terabyte moet liggen. Maar telkens wordt het hoogste getal meegenomen in de eindschatting. Dat is mogelijk van belang voor opdrachtgever EMC – maar dat eventuele maximum wordt iets te uitdrukkelijk als ultieme waarheid gepresenteerd.

How Much Information? door Peter Lyman en Hal Varian, 120 blz., www.sims.berkeley.edu/research/projects/how-much-info.

    • Dany Jacobs