Van Lycos tot Google

In 18 jaar tijd zijn zoekmachines geëvolueerd tot machines die begrijpen wat u bedoelt te vragen. Een korte geschiedenis.

Sinds Google een bijna-monopoliepositie heeft verworven, lijkt het woord zoekmachine nauwelijks meer in het meervoud voor te komen. In de geschiedenis van het webzoeken is dat wel anders geweest, zoals de selectie oude zoekmachinelogo’s hiernaast laat zien. Die geschiedenis begon in 1995 met Lycos, de eerste bruikbare zoekmachine voor het nog jonge web, gebouwd door een hoogleraar en studenten van Carnegie Mellon University in de VS. Onvoorstelbaar dat we toen opgewonden werden over een zoekmachine die 1,5 miljoen webpagina’s doorzoekbaar maakte.

In de beginjaren speelde die grootte van zoekmachines een belangrijke rol. Wie had het grootste deel van het web weten te indexeren? Op de website van SearchEngineWatch (SEW) werd dat voor de belangrijkste webzoekmachines bijgehouden in staafdiagrammen en grafieken. Regelmatig namen ze daarin de koppositie van elkaar over. Die cijfers waren meestal afkomstig van de bedrijven zelf, die omvang als reclame beschouwden.

Als docent zoeken op internet aan de Hogeschool Amsterdam waarschuwde ik studenten in die beginjaren dat wat je aan informatie op internet kon vinden, veel minder was dan wat tegen betaling langs andere wegen online beschikbaar was. Maar die tijden waren snel voorbij. Met een verdubbeling elk jaar gaven webzoekmachines tien jaar later al toegang tot een veelvoud van wat betaalde bronnen boden.

Een verdubbeling aan doorzoekbare webpagina’s elk jaar, waar komt dat cijfer vandaan? Aanvankelijk uit de SEW-gegevens. Maar na een tijdje werden geen groottes meer vermeld, omdat ze geen marketingargument meer vormden. De zoekmachines zetten toen in op relevantieordening: als het eerste resultaat het belangrijkste was, hinderde het niet als je minder had dan de concurrent. Nogal onzinnig, want als een zoekmachine het beste resultaat niet in zijn index heeft, heb je ook niets aan een sublieme relevantievolgorde.

Sorteren op relevantie

Webzoekmachines hebben een nieuwe manier van zoeken geïntroduceerd, doordat ze heel anders werkten dan de zoeksystemen waaraan we gewend waren. Er was geen ingewikkelde zoeksyntax meer nodig om een vraag te formuleren, zodat zoeken binnen ieders bereik kwam. En resultaten werden op hun vermoedelijke relevantie geordend.

Ook kregen gebruikers al gauw hulp bij het verbeteren van hun zoekvragen. Zoekmachines als Excite, InfoSeek, Euroferret en AltaVista (en later Teoma en Wisenut) kwamen na elke zoekvraag met rijtjes woorden die met de zoekvraag samenhingen. Die werden op basis van woordstatistiek berekend en waren meestal bedoeld om zoekresultaten in te perken, simpelweg door relevante woorden als aanvullende zoekwoorden aan te klikken. Na een paar jaar verdween die functionaliteit vaak weer geruisloos, of omdat die niet gebruikt werd, of omdat die zoekmachines verdwenen.

Na 2000 ging Google het zoeken steeds meer domineren, vooral door betere relevantieordening. Daarvoor werd niet alleen meer gebruikgemaakt van waar en hoe zoekwoorden in webpagina’s voorkomen, maar ook van linkpatronen tussen webpagina's.

Grote zoekmachines – Google voorop – begonnen tijdens het intikken van een vraag ook suggesties te tonen voor precisering van de zoekvraag. Bij Google culmineert dat in het tonen van wellicht bedoelde resultaten terwijl de vraag nog wordt ingetikt – Google Instant. Daarnaast introduceerde Google technieken om de opbrengst van zoekvragen te verbeteren. Suggesties voor anders (en dus correcter?) gespelde zoekwoorden die meer opleveren. Automatisch toevoegen van enkel- en meervoud, woordvarianten, samengestelde woorden en geleidelijk ook synoniemen van de oorspronkelijke zoekwoorden. Wie op vakantiehuis zoekt vindt nu ook chalet en bungalow.

Automatisch zoeken op iets anders dan je als zoekvraag hebt ingetikt, omdat de zoekmachine denkt beter te weten wat je bedoelt, wordt door sommige zoekers verafschuwd. Wellicht om ook daaraan tegemoet te komen, introduceerde Google vorig jaar de optie om toch ook nog exact ‘woord voor woord’ te kunnen zoeken.

Zoekmachines beweren intussen eropuit te zijn antwoorden te geven, in plaats van lijstjes webpagina’s te produceren. Bing afficheerde zich bij zijn introductie als een ‘decision engine’ en Wolfram|Alpha geeft echt alleen feiten. Niet eens echt nieuw, want al in 1996 streefde AskJeeves wat minder pretentieus datzelfde doel na. Ook Google zet intussen in op feitelijkheden met zijn Knowledge Graph. Op een vraag als Beethoven, krijg je naast een klassiek resultatenlijstje ook een blokje met feitelijke gegevens over de componist. Facebook gaat met zijn net geïntroduceerde Graph search ook dat pad op. Dat sluit allemaal aan bij de ‘semantische’ trend, waarbij semantische zoekmachines ‘begrijpen’ wat wij met onze zoekvragen bedoelen en ook wat in gevonden documenten wordt bedoeld. Om autonoom onze zoekopdrachten te kunnen interpreteren, willen zoeksystemen wel steeds meer van ons weten, of we dat willen of niet.

Eric Sieverts heeft ruim 30 jaar ervaring met het gebruiken, testen en beoordelen van zoeksystemen. Sinds 1994 geeft hij cursussen in het zoeken op internet.