Hooi en speld

Zoeken op trefwoord is niet altijd meer toereikend om iets te vinden op internet: veel te veel hits. Nieuwe technieken bieden uitkomst.

Meer dan één miljard pagina's, zo'n acht terabyte aan tekst op drie miljoen servers. De ironie van het World Wide Web is dat zijn grootste kracht ook zijn grootste zwakte is. Alles is te vinden, de vraag is alleen: waar? Zoekmachines als Altavista, Northernlight of Alltheweb (Fastsearch) zijn dan ook bijna continu in de top tien van meest bezochte sites te vinden.

Helaas slagen die zoekmachines er steeds minder goed in om de groei aan informatie bij te houden. Waar begin 1998 de beste zoekmachine nog meer dan dertig procent van het WWW bestreek, bleek uit een soortgelijke studie anderhalf jaar later dat dat percentage inmiddels was gehalveerd. Aan de andere kant is het ook steeds belangrijker dat zoekmachines het aantal hits weten te beperken. Niemand heeft tijd om honderden documenten door te lezen om te kijken of één daarvan misschien antwoord biedt op de gestelde vraag.

Een aantal nieuwe ontwikkelingen biedt uitzicht op verbetering: betere mechanismen om de meest relevante webpagina's te bepalen, intelligente zoekmachines die in staat zijn om de inhoud van bestanden te indexeren of die niet alleen letten op keywords, maar volautomatisch meer algemene concepten destilleren uit zoekopdrachten.

De `klassieke' zoekmachines maken gebruik van programma's (crawlers of spiders) die vanuit willekeurige startpunten automatisch het web afstruinen en indexeren. Via links springen ze van webpagina naar webpagina. Onder het motto: zo kom je uiteindelijk overal wel een keer terecht. Dat idee leek te worden bevestigd toen vorig jaar uit onderzoek bleek dat twee willekeurige webpagina's gemiddeld maar negentien muisklikken van elkaar verwijderd waren: de `diameter van het WWW' leek dus vrij beperkt (Nature, 9 september 1999). Recent onderzoek, dat vorige week werd gepresenteerd op de WWW9-conferentie in Amsterdam, plaatst echter vraagtekens bij die conclusie. Uit een analyse van 200 miljoen pagina's en anderhalf miljard links kregen onderzoekers van Compaq, IBM en Altavista beter dan voorheen inzicht in de structuur die ten grondslag ligt aan het web. Slechts een kwart van de onderzochte pagina's bleek deel uit te maken van een centrale kern en een onderling samenhangend geheel te vormen. De rest staat daar geheel los van of is er slechts via eenrichtingsverkeer mee verbonden. Dat laatste wil zeggen dat veel pagina's weliswaar verwijzen naar de kern, maar dat er geen terugverwijzingen zijn: vanuit de kern kom je nooit op die pagina's. Een van de conclusies van dit onderzoek was dan ook dat de diameter van het web veel en veel groter is dan tot nu toe was aangenomen.

Dat maakt het veel moeilijker om alle pagina's te bezoeken. Desondanks worden de claims van de huidige zoekmachines steeds fantastischer. Zo beweert Excite dat zijn verzameling van 250 miljoen pagina's het resultaat is van een bezoek aan niet minder dan 900 miljoen pagina's: allerlei doublures (zogeheten mirror sites) en internetrommel (spam) zouden zorgvuldig zijn verwijderd. Dergelijke marketingtrucs dienen slechts één doel: elke zoekmachine wil de grootste worden om zo meer bezoekers te trekken en de meeste advertentieinkomsten binnen te halen.

De vraag is of grootte voor een willekeurige gebruiker wel zo belangrijk is. Dat een index miljoenen pagina's méér heeft betekent niet dat je altijd vindt waar je naar op zoek bent. Veel belangrijker is de manier waarop de zoekmachines uit een aantal potentiële hits de meest relevante weten te selecteren. Meestal gebeurt dat aan de hand van simpele criteria, als de frequentie waarmee een bepaald sleutelwoord uit een zoekopdracht voorkomt of de plaats ervan op een pagina. Sinds kort zijn er echter een aantal zoekmachines die een wat andere strategie volgen.

Pioniers op dit gebied zijn Sergey Brin en Lawrence Page, twee studenten computerwetenschappen van de universiteit van Stanford die in 1998 Google opzetten. Deze zoekmachine onderscheidt zich van de meeste andere doordat ze de webpagina's rangschikt naar `autoriteit', aan de hand van het aantal andere pagina's dat er naar verwijst. Het idee hierachter is ontleend aan de wetenschappelijke literatuur, waarin geldt dat een veel geciteerd artikel blijkbaar belangrijker is. Maar – opnieuw net als in de wetenschap – speelt niet alleen het aantal verwijzingen een rol, maar ook het gewicht ervan: een veelbezochte, commerciële site heeft een grotere 'stem' dan iemands persoonlijke homepage. De door Brin en Page gepatenteerde Pagerank-technologie maakt voor deze (iteratieve) berekeningen gebruik van een speciale wiskundige vergelijking. En het lijkt te werken. In korte tijd is Google uitgegroeid en heel populair geworden, met een bereik van 4% in februari 2000, dat wil zeggen dat 4% van iedereen die in die maand on line was Google met een bezoek vereerde. Het is geen wonder dat belangrijke investeerders het bedrijf, dat inmiddels honderd werknemers telt, vorig jaar een financiële injectie gaven van 25 miljoen dollar. Inmiddels schijnen ook andere zoekmachines op een of andere manier gebruik te maken van linkanalyses.

Voor wetenschappers die bijvoorbeeld op zoek zijn naar informatie uit specifieke databases of naar specialistische sites, waar nauwelijks naar verwezen wordt, bieden dergelijke ontwikkelingen nog weinig soelaas. Computerwetenschapper Steven Lawrence, verbonden aan het NEC-onderzoeksinstituut in Princeton, was één van de eersten die onderzoek deden naar de toegankelijkheid van informatie op het Internet. Hij merkte onlangs in Nature op ``dat de beperkingen van zoekmachines grotere implicaties hebben voor wetenschappers dan voor gewone gebruikers''. Een veel groter probleem is volgens Lawrence de versnippering van wetenschappelijke artikelen over archieven, sites van onderzoeksgroepen, wetenschappelijke tijdschriften en persoonlijke pagina's van onderzoekers. Er is geen index die dat allemaal bestrijkt.

Het was voor Lawrence aanleiding om samen met een aantal collega's ResearchIndex te ontwikkelen, een zoekmachine speciaal gericht op de wensen van wetenschappers. Daarmee worden niet alleen elektronische versies van artikelen automatisch opgespoord, maar tevens worden titel, abstract, auteur(s) en referenties automatisch uitgelezen en opgeslagen. Daardoor wordt het uitvoeren van citatie-analyse erg eenvoudig. Bovendien kan een gebruiker, wanneer hij eenmaal een relevant artikel heeft gevonden, met een druk op de knop verwante artikelen opsporen.

Op dit moment is ResearchIndex slechts beschikbaar voor de computerwetenschappen, maar alleen al op dat vakgebied beschikt het over een database met 270.000 artikelen, bijna het dubbele van het Los Alamos preprint-archief waar wetenschappers alvast hun artikelen deponeren vóór ze in tijdschriften zijn verschenen. De software is gratis verkrijgbaar, zij het uitsluitend voor niet-commerciële toepassingen. Lawrence: ``Het is niet ons doel om wéér een digitale bibliotheek samen te stellen, maar om technieken en programma's te verschaffen die gebruikt kunnen worden om de communicatie in de wetenschap te verbeteren.''

Dat is ook het doel van Barend Mons, werkzaam bij NWO, de Nederlandse Organisatie voor Wetenschappelijk Onderzoek. Mons ontwikkelde samen met Erik van Mulligen van Medische Informatica in Rotterdam software (`Shared') om de internationale samenwerking tussen onderzoekers in de gezondheidszorg voor ontwikkelingslanden te bevorderen. Mons: ``Kennis is het belangrijkste goed dat ontwikkelingssamenwerking kan bieden. We moeten proberen de wetenschappers in die landen uit hun isolement te halen.''

Om dat te bereiken ontwikkelde hij een unieke methode om met informatie in databases om te gaan. Van elk document dat wordt ingevoerd wordt binnen enkele seconden een profiel aangemaakt dat de tekst beschrijft aan de hand van een aantal concepten. Het programma kijkt naar veel voorkomende woorden of karakteristieke woordcombinaties en bepaalt aan de hand van een thesaurus (synoniemenlijst) welke concepten het best van toepassing zijn. Onder dat profiel wordt het document vervolgens opgeslagen. Wanneer iemand in zo'n database wil zoeken, wordt op dezelfde manier een profiel aangemaakt aan de hand van de ingevoerde zoektermen. Waarna vervolgens een match wordt gezocht met profielen uit de database.

Als de ingevoerde zoektermen niet voldoende zijn om een profiel te genereren, vraagt het programma om meer specifieke informatie en doet daarvoor ook een aantal suggesties. Mons: ``Op dezelfde manier kan informatie over projecten of over organisaties worden opgeslagen, waardoor het programma een enorm waardevol stuk gereedschap wordt voor kennismanagement, bijvoorbeeld binnen bedrijven. Het enige dat daarvoor nodig is, is het afstemmen van de inhoud van de thesaurus op het gewenste kennisgebied.''

Inmiddels is Mons voor een paar jaar uitgeleend aan Collexis, een bedrijf in Geldermalsen dat de software verder ontwikkelt en commercialiseert. Mons: ``NWO heeft echter bedongen dat het gratis onbeperkte licenties kan weggeven in de publieke sector, en dat 20 procent van de inkomsten terugvloeit naar het doel waar het oorspronkelijk voor is ontwikkeld.''

www.altavista.com; www.northernlight.com; www.alltheweb.com; www.excite.com; www.google.com; www.researchindex.com; www.shared.de

    • Rob van den Berg