'Het onzichtbare web is 550 keer groter dan het zichtbare'

Thalia Verkade

Tip of the Iceberg --- Image by © Ralph A. Clevenger/CORBIS © Ralph A. Clevenger/CORBIS

De aanleiding

Het internet is „de kraamkamer” van hedendaagse jihadisten, stelt de AIVD in een in januari verschenen rapport over de dreiging van geweld uit naam van de islam. Jihadisten treffen elkaar „ op ‘openbare’ virtuele plekken zoals sociale media, webfora en chatprogramma’s”. En „op semi-openbare of besloten virtuele plekken”, waar de gevaarlijkste activiteiten zouden plaatsvinden.

In deze context valt de term ‘het onzichtbare web’: „Deze meer besloten virtuele plekken maken voor een belangrijk deel onderdeel uit van het invisible web.” Om het belang ervan duidelijk te maken, haalt de AIVD de volgende externe cijfers aan: „Wetenschappers schatten in dat het onzichtbare web 550 keer groter is dan het zichtbare web. Dit wil zeggen dat het onzichtbare web meer dan 99,8 procent van het totale web uitmaakt en dat dus minder dan 0,2 procent van het web tot het zichtbare deel behoort.” De cijfers werden onder meer gemeld in een bericht over het rapport op nrc.nl.

Mogelijke interpretaties

De AIVD definieert het onzichtbare web als „dat deel van het world wide web dat (nog) niet is geïndexeerd en niet terugvindbaar is met behulp van openbaar toegankelijke zoekmachines.” Het gaat bij dit getal dus om informatie die je via browsers opvraagt – niet om informatie die gedeeld wordt via bijvoorbeeld peer-to-peernetwerken of Skype.

Een webpagina kan om allerlei redenen niet opduiken in zoekresultaten. Bijvoorbeeld omdat de webbeheerder in een bestandje (robots.txt) heeft aangegeven dat de pagina niet mag worden geïndexeerd. Omdat het e-mail of andere privécommunicatie (beveiligd met wachtwoord) betreft. Maar het kan ook komen doordat de robot (die de resultaten verzamelt) de pagina niet goed kán indexeren – zoals dynamische pagina’s die gevuld worden met informatie uit databases. De actuele vertrektijden van de NS, een winkelcatalogus of een pagina met beurskoersen zijn er voorbeelden van.

Privéberichtjes op Facebook worden ook niet geïndexeerd. Chatprogramma’s (zoals Skype) vallen niet onder het web. Het is dus ook niet logisch dat „sociale media en chatprogramma’s” door de AIVD onder het zichtbare web worden geschaard.

Hoe is er gemeten?

De AIVD noemt het getal 550 zonder een grootheid te noemen. Het cijfer komt volgens de inlichtingendienst uit een studie van Berkeley University uit 2003. Die verwijst weer naar een ander onderzoek: „Zoals gekwantificeerd in een belangrijke studie door BrightPlanet in 2000, is het ‘diepe web’ mogelijk 400 tot 550 keer groter dan de informatie aan de ‘oppervlakte’.

De AIVD houdt de hoogste schatting aan uit een indirect geciteerd onderzoek van een bedrijf dat zich, tegen betaling, specialiseert in het „oogsten van het diepe web”. Onderzoeker Michael K. Bergman van BrightPlanet berekende destijds dat het ‘diepe web’ 550 miljard individuele documenten aan informatie bevatte, van samen 7.500 terabyte (een terabyte is 1024 gigabyte).

Die schatting maakte hij door te kijken hoeveel gigabyte aan informatie zestig hele grote databases bevatten (zoals die van NASA) die niet werden geïndexeerd. Van 53.000 andere databases werden er 700 willekeurig gekozen en ‘opgemeten’.

Het zichtbare web telde in dit rapport één miljard aan individuele documenten, van samen 19 duizend gigabyte. Dit laatste getal kwam van een ander onderzoeksbureau, NEC Research Institute. Door de eerste cijfers te extrapoleren en te vergelijken met de tweede, kwam BrightPlanet tot de verhouding 1:400 tot 1:550.

En, klopt het?

De vraag is of het getal uit 2000, ervan uitgaande dat het toen überhaupt klopte, nu nog geldig is. BrightPlanet publiceerde geen nieuwe schatting – op de vraag waarom niet kwam geen antwoord.

De AIVD meldde zelf in een noot geen recentere schattingen te hebben gevonden.

Dat is niet zo vreemd. Zoekmachines zoeken naar tekst, en in 2000 bestond het web grotendeels uit tekst. De vraag wat de verhouding was tussen vindbare tekst (in webpagina’s zelf) en onvindbare tekst (in databases) gaf destijds (enig) inzicht in het vermogen van zoekmachines en de hoeveelheid beschikbare informatie. Maar nu?

De aard van het web is zodanig veranderd dat zo’n verhouding betekenisloos is geworden. Enerzijds omdat het gros van wat er op het web staat niet meer uit ‘statische’ tekst bestaat (neem de NS vertrektijden), anderzijds omdat wat zoekmachines kunnen vinden aan grote veranderingen onderhevig is: gegevens uit databases worden gestaag beter uitgelezen door robots.

Bovendien is een steeds groter deel van wat er op het web staat überhaupt geen tekst – dus wat vergelijk je dan met wat? Ter illustratie: in 2000 bestond YouTube nog niet – waar volgens de site zelf nu elke minuut 48 uur aan videomateriaal wordt geüpload.

Reken je anno 2012 de verhouding uit in bytes, dan kan één filmpje nu als even zwaar tellen als meerdere radicale internetfora. Gebruik je webpagina’s als eenheid – telt dan elke pagina met de actuele vertrektijden van de NS op elk mogelijk moment als één? Het kenmerk van het huidige web is nu juist dat het dynamisch is: elke nieuwe zoekopdracht op Google bijvoorbeeld genereert een nieuwe webpagina die eerder niet bestond. Het web is in die zin ‘oneindig’ groot geworden.

Conclusie

De term ‘zichtbaar’ of ‘diep web’ wordt gebruikt voor dat deel van het web dat door zoekmachines wordt geïndexeerd. Het ‘onzichtbare’ web is de rest. Dat het onzichtbare deel 550 keer groter zou zijn dan het zichtbare deel, baseert de AIVD op een onderzoek, dat een ander onderzoek citeert van een bedrijf dat geld verdient aan het ‘oogsten’ van het diepe web.

Het getal is elf jaar oud en betreft een schatting van de verhouding tussen het aantal onzichtbare en zichtbare webpagina’s, uitgedrukt in gigabytes. Nieuwe schattingen zijn er niet, omdat het een achterhaalde manier is om de ‘omvang’ van het web, waarvan de inhoud inmiddels zo enorm is veranderd, uit te drukken.

Dat het onzichtbare web 550 keer zo groot is als het zichtbare web is dan ook een misleidende weergave van hoe het web anno 2012 in elkaar zit – en valt volgens ons daarom in de categorie onwaar.