Dit is een artikel uit het NRC-archief
Bekijk hele krant

NRC Handelsblad

Onderwijs

Eindelijk betere lijst slim zoeken

Gewoonlijk schrijf ik in deze rubriek over de resultaten van taalonderzoek, maar ditmaal gaat het over het onderzoek zelf, over hoe je met behulp van Google taalvariatie kunt onderzoeken. Aanleiding: eind vorige week heeft Google eindelijk een overzicht gepubliceerd van geavanceerde zoekmogelijkheden. Korte lijstjes bestonden al langer, maar een min of meer complete lijst ontbrak nog altijd – tot verbazing en soms ergernis van onderzoekers.

Naar aanleiding van die overzichtslijst sprak ik met Dan Russell, een computerwetenschapper die op zijn visitekaartje ‘Senior Research Scientist, Search Quality & User Happiness’ heeft staan. Russell werkt op het hoofdkantoor van Google in Californië en staat daar kortweg bekend als ‘director of user happiness’. Zelf noemt hij zich soms ‘zoekantropoloog’, want hij analyseert hoe mensen via Google zoeken.

De meeste zoekopdrachten bij Google bestaan uit drie woorden, vertelt Russell, en een zoekopdracht van zes woorden geldt als lang. Zoekopdrachten van boven de twintig woorden komen nauwelijks voor. „Als je zo’n lange zoekopdracht maakt, doe je iets fout”, zegt hij. Wat bij taalonderzoek overigens niet altijd waar is, maar daarover zo meer.

Geavanceerd zoeken doe je met behulp van zogenoemde zoekoperatoren. Dat zijn commando’s die je aan een zoekopdracht toevoegt, gewoon in de zoekregel van Google (of een andere zoekmachine). Zo kun je met de zoekoperator site: bij Google aangeven dat je alleen binnen een bepaald domein wilt zoeken. Dat kan een bepaalde website zijn (site: nrc.nl) of een land (site:nl).

Op de overzichtslijst die Google vorige week publiceerde staan 22 van dit soort operatoren. Vreemd genoeg is de lijst nog steeds niet compleet (ik ken zeker nog tien andere Google-operatoren), maar volgens Russell zijn sommige zó specialistisch dat ze wereldwijd slechts 2 of 3 keer per dag worden gebruikt. Hij weet dit uit analyses van de logboeken die Google bijhoudt.

Tot nu toe zijn er maar vier operatoren die echt regelmatig worden gebruikt, aldus Russell. Filetype: om naar een bepaald type document te zoeken (pdf’s bijvoorbeeld), dubbele aanhalingstekens om naar een ‘vaste formulering’ te zoeken, het bovengenoemde site: en het minteken (om een woord uit te sluiten).

Russell is er, net als ikzelf, van overtuigd dat intensiever en slimmer gebruik van zoekoperatoren onmiddellijk leidt tot relevantere zoekresultaten. Hij zet zich daarvoor in door wereldwijd workshops te geven en over dit onderwerp te schrijven (o.a. in zijn blog Search Research en op de website ‘Search Education Evangelism’).

Er valt wat dit betreft nog een hoop werk te verzetten, verzucht Russell, want uit onderzoek van Google blijkt dat 90 procent van de internetgebruikers zelfs niet weet dat je met de toetscombinatie ctrl + f (find) snel kunt nazien waar iets op een pagina staat. „Mensen lezen hele pagina’s door om te zien waar het gezochte woord staat. Driekwart van de docenten op middelbare scholen en de helft van de universitaire docenten blijkt die toetscombinatie niet te kennen.”

Maar goed, hoe kun je dit soort operatoren nu toepassen bij taalonderzoek? Kort gezegd komt het hierop neer: door ze slim te combineren.

Wilt u bijvoorbeeld onderzoeken welke hedendaagse varianten er bestaan van de uitdrukking zo oud als de weg naar Rome? Zet dan in de zoekregel bij Google: “zo oud als de weg naar *” -Rome. U vindt dan bijvoorbeeld: zo oud als de weg naar Kralingen, Jericho en Jeruzalem (en zelfs: Methusalem). Zoek vervolgens “zo oud als de weg naar *” -Rome -Kralingen -Jericho -Methusalem. En zo verder. Deze zoekopdracht wordt langer dan 20 woorden, want er zijn veel varianten, maar iedereen kan met zo’n trucje trefzeker delven in de rijkste mijn die er voor hedendaags taalonderzoek bestaat: het wereldwijde web.

Voor de lijst zie http://tinyurl.com/nrc-slim