AFSTAND TUSSEN WEBPAGINA'S IS GEMIDDELD 20 SCHAKELS

Ook cyberspace is een kleine wereld. Het World Wide Web mag dan volgens de laatste tellingen zo'n achthonderd miljoen pagina's omvatten, toch is een gemiddelde pagina minder dan twintig muisklikken verwijderd van welke andere dan ook. Dat blijkt uit tellingen van natuurkundigen van de universiteit van Notre Dame in de Verenigde Staten (Nature, 9 september 1999).

Zij maakten gebruik van een software robot om automatisch van elke webpagina de links te noteren en die te volgen. In totaal werden meer dan 300.000 pagina's bekeken, met bij elkaar zo'n anderhalf miljoen verwijzingen. Uit de manier waarop die verdeeld zijn, blijkt dat het WWW zich niet volledig willekeurig heeft vertakt, maar de kenmerken vertoont van een zogeheten small world network. Het is opgebouwd uit een heleboel clusters, waarbinnen er voornamelijk naar elkaar verwezen wordt. Slechts een heel klein gedeelte van de links verzorgt verbindingen tussen de clusters, waardoor je verrassend snel van het ene cluster naar het ander kunt komen - àls je tenminste die cruciale verbinding vindt. Ook de totale wereldbevolking vormt een dergelijk netwerk van clusters. Dat heeft tot gevolg dat vrijwel iedereen met welk andere persoon dan ook verbonden is via een keten van zes gemeenschappelijke kennissen. Voor het web blijkt dat getal dus iets hoger te liggen, maar zelfs als de voorspelde groei van het WWW zich doorzet en er over een paar jaar tien keer zoveel pagina's zijn, neemt hun onderlinge afstand maar heel weinig toe.

Het small world karakter verklaart waarom iemand die al surfend op zoek is naar informatie die meestal vrij snel te pakken heeft. Een zoekmachine, die domweg pagina's afstruint op zoek naar een bepaald woord of combinatie van woorden, doet daar veel langer over. De onderzoekers laten zien dat in dat geval zo'n 10% van alle beschikbare pagina's dient te worden bezocht om dezelfde informatie te vinden. Dat is in de praktijk onmogelijk, vandaar dat de meeste zoekmachines gebruik maken van uitgebreide indexen op webpagina's. Gezien de explosieve groei van het WWW blijkt het steeds moeilijker om deze up-to-date te houden: de zoekmachines houden de groei van het web niet bij (Nature, 8 juli 1999). De enige oplossing is daarom gelegen in de ontwikkeling van intelligente zoekmachines, die op een slimme manier gebruik weten te maken van de kenmerken van het WWW-netwerk. Maar daar zal dan eerst meer bekend over moeten worden, iets waar dit onderzoek slechts een eerste stap toe is. (Rob van den Berg)