Zoeken naar de naald in de hooiberg

De goede vragen stellen. De juiste bronnen raadplegen. Creatief combineren. Zoeken op Internet is als het werk van een detective.

WIE OP HET Internet zoekt, moet beginnen met nadenken. De computers die een selectie maken uit de berg gegevens die het Internet is, doen dat zelf namelijk niet. Zomaar een woord intikken bij een zoekmachine is vergelijkbaar met het binnenlopen bij een bibliotheek en datzelfde woord in het oor fluisteren van de eerste de beste medewerker. De kans dat de medewerker direct een reeks nuttige boektitels opnoemt, is nihil.

Ten eerste moet onderscheid gemaakt worden tussen zoekmachines (of search engines) en zoekindexen. De eerste maken gebruik van een soort robots die eigenhandig het net afstruinen op zoek naar zo veel mogelijk adressen. Van alle pagina's die zij tegenkomen, wordt de inhoud (tekst, titel, beschrijvingen van foto's en dergelijke) in het gegevensbestand van de zoekmachine opgeslagen.

De indexen worden door mensen samengesteld. Het zijn lijsten met adressen die in hiërarchische rubrieken zijn onderverdeeld, vergelijkbaar met de catalogus van een bibliotheek. De mensen die de lijsten samenstellen beoordelen zelf of adressen nuttig zijn. Of ze kijken naar wie het meest betaalt voor opname in de lijst. Overigens wordt het onderscheid tussen indexen en machines steeds diffuser, omdat veel zoeksystemen tegenwoordig samenwerken en naar elkaar verwijzen.

Er zijn tientallen verschillende adressen waar gezocht kan worden: algemene machines (www.hotbot.com, www.altavista.com, www.northernlight.com), algemene lijsten (www.yahoo.com, www.lycos.com) of juist specifiekere zoekers. Sommige hiervan kijken in hoofdzaak naar Internetpagina's in een bepaald land (www.vindex.nl, www.ilse.nl, www.yahoo.de [Yahoo Deutschland]). Andere kijken weer naar specifieke onderwerpen of alleen naar informatie uit of over nieuwsgroepen of mailinglijsten (www.liszt.com, www.reference.com, www.dejanews.com). Er zijn zelfs zoekindexen waarin je kunt zoeken naar zoekindexen en -machines (www.internets.com, www.beaucoup.com, www.webtaxi.com).

Een heel belangrijk nadeel van zoekindexen is dat ze slechts een zeer beperkt aantal verwijzingen hebben opgenomen, omdat ze nu eenmaal door mensen zijn samengesteld, die bovendien lang niet van alle onderwerpen verstand hebben. De mensen die de Yahoo-index samenstellen wonen daarbij allemaal in Californië, wat tot gevolg heeft dat zij eerder geneigd zijn Amerikaanse sites in de index op te nemen dan Europese of Aziatische. Ook moet een gebruiker van een index weten dat hij alleen kan zoeken binnen de index zelf, want het enige wat de samenstellers registreren is het adres van de opgenomen pagina's en een korte beschrijving. Het woord `Rotterdam' staat bijvoorbeeld zeker op de pagina's van NRC Handelsblad, maar bij Yahoo zoeken naar <nrc +rotterdam> levert niets op, omdat de samenstellers de krant niet met de vestigingsplaats in verband hebben gebracht.

De zoekmachines zijn veel groter en kennen de hele inhoud van de geregistreerde pagina's. Zo had NorthernLight afgelopen dinsdag 127.525.354 pagina's in zijn gegevensbestand en AltaVista 102.060.761. Dit verschil van 25 miljoen pagina's geeft al aan dat ook de zoekmachines lang niet alles op het Internet zien. De robots die voor de zoekmachines het web afstruinen, surfen van link naar link. Maar pagina's waarnaar geen enkele link verwijst zullen zij nooit bezoeken, tenzij de maker van de pagina de zoekmachine heeft laten weten waar zijn site te vinden is. Ook is de kans klein dat een Amerikaanse robot alle `uithoeken' van het web goed doorzoekt, zoals Afrikaanse sites. Ook pagina's die alleen toegankelijk zijn met een wachtwoord, staan niet in de bestanden van zoekmachines.

De inhoud van zogeheten dynamische pagina's wordt ook niet geregistreerd. Dynamische pagina's zijn pagina's waarvan de inhoud door de websurfer wordt bepaald. Zoals bijvoorbeeld de lijst met resultaten die een zoekmachine na een zoekactie laat zien. Ze zijn vaak te herkennen aan de term cgi-bin in het adres, in combinatie met een aantal ongebruikelijke symbolen (voorbeeld: www.altavista.com/cgi-bin/query?

pg=q&kl=XX&q=zoeken is het adres van de dynamische pagina die AltaVista maakt na het zoeken naar de term `zoeken').

Wie bijvoorbeeld wil weten hoe vaak hepatitis in verschillende Europese landen voorkomt, zal de beste informatie missen door bij een zoekmachine <hepatitis +europe> te typen. De Wereldgezondheidsorganisatie (WHO) heeft namelijk een online database met gegevens over gezondheid in Europa, maar de inhoud daarvan wordt dynamisch gepubliceerd. Zoeken naar een mogelijke verstrekker van betrouwbare informatie (bijvoorbeeld: <health +europe +database>) levert meer op dan direct zoeken naar de informatie zelf. Op de site van de verstrekker zijn de gezochte gegevens meestal snel te vinden.

Denken over de juiste zoekterm is ook het inleven in degenen die websites maken. Er bestaan bijvoorbeeld vele duizenden racistische sites. Maar wie ze wil bekijken met behulp van de term <racis*> zal vooral bij antiracistische pagina's terechtkomen. Een zoekterm als <``I hate niggers''> is effectiever, ofschoon er enige schroom moet worden overwonnen om dit in te typen.

Zoeken bij een zoekmachine levert vaak een ellenlange resultatenlijst op van soms tienduizenden pagina's. Dat is niet erg, zo lang de beste resultaten maar bovenaan staan. Hotbot gebruikt hiervoor de technologie van het bedrijf DirectHit (www.directhit.com). Simpel gezegd zorgt dit ervoor dat de sites die het vaakst bezocht worden bovenaan staan. Vaak ook zullen dit de sites zijn die de beste informatie bevatten. Maar staan ze niet bovenaan, dan is het zaak de zoekvraag specifieker te maken (zie illustratie).

Maar vaak ook is een zoekmachine of -index niet het aangewezen middel om veel te vinden over één onderwerp. Veel instellingen en particulieren hebben zelf op hun site een lijst met hyperlinks gezet, bijvoorbeeld over hun specialisme of liefhebberij. Het voordeel hiervan is dat de schifting tussen nuttige en nutteloze informatie vaak al is gemaakt. Ook het verschijnsel webring kan van nut zijn. Een webring is een aaneengesloten keten van sites – doorgaans van particulieren – over hetzelfde onderwerp, die allemaal naar elkaar verwijzen. Een zoekindex hiervoor is www.webring.com.

Maar wie het zich graag zo makkelijk mogelijk maakt, zou eens naar de zoekindex www.askjeeves.com moeten gaan. Hier kan gewoon een vraag worden gesteld, in het Engels. AskJeeves heeft vaak een verbluffend goed antwoord.

Veel informatie over zoeken op het Internet is te vinden op:

searchenginewatch.com

www.lib.berkeley.edu/

TeachingLib/Guides/Internet/FindInfo.html

www.monash.com/spidap.html

www.planet.nl/specials/zoekenII