CD-foongids

Binnenkort presenteert PTT Telecom de CD-foongids, het telefoonboek op compact disc. Niet ingezongen door de juffrouw van de tijdmelding, maar als cd-rom, een cd dus die de computer kan lezen. De CD-foongids verschijnt viermaal per jaar. Een abonnement kost ruim duizend gulden. Bij ontvangst van het "verse' schijfje moet je het oude inleveren.

Voor het vastleggen en weer opzoeken van de adressen en telefoonnummers op de cd-rom is gebruik gemaakt van een Nederlandse retrieval engine, letterlijk een 'opzoekmachine'. De retrieval engine vormt het hart van een computerprogramma dat het bedrijf CAT (onderdeel van software-bedrijf BSO) onder de naam Freebase op de markt brengt.

De retrieval engine is gebaseerd op het feit dat mensen ongestructureerd, om niet te zeggen chaotisch, zoeken. Een computer werkt daarentegen zeer gestructureerd. Je kunt het ding bij voorbeeld niet zomaar vragen om de naam van die mevrouw die eind jaren veertig goud won op de Olympische Spelen en wier naam klonk als "blank'. De meeste computers willen meer of eenduidiger informatie voor ze het gegevensbestand raadplegen.

Dat je met de retrieval engine wel ongestructureerd kunt zoeken, demonstreert Ton Zeilstra, directeur van CAT/BSO, aan de hand van een databestand dat het bedrijf maakte voor een museum in Athene. Na intikken van goud, hardlopen en blank verschijnt niet alleen de naam van Fanny Blankers-Koen, maar ook een foto van haar en een filmpje waarin we haar een race zien winnen.

Wie iets opzoekt in een gegevensbestand, doet dat doorgaans via een "zoek-boom', een gestructureerd patroon dat de vragensteller - al dan niet via enkele tussenstappen ter precisering van de vraag - naar het juiste antwoord leidt. Dank zij toepassing van de zogeheten inverted file techniek, hoef je niet meer te zoeken langs formele lijnen, zoals bij voorbeeld bij Viditel, maar kun je associatief zoeken.

De CD-foongids (waarvan het prototype overigens "Nummerplaat' heette) werkt met behulp van dezelfde techniek. Zeilstra tikt mijn achternaam in op zijn microcomputer nadat hij de CD-foongids heeft gestart. Als hij de eerste letters van mijn woonplaats intikt, verschijnt er rechts onder in beeld een lijstje met plaatsnamen die met "Voo..' beginnen. Door het aantikken van Voorburg verschijnen vrijwel onmiddellijk de namen, adressen en telefoonnummers van de vijf Van Kasterens in Voorburg. Adres en telefoonnummer verschijnen ook bij het intikken van straat, huisnummer en woonplaats en bij het intikken van huisnummer en postcode.

Bij de CD-foongids is het aantal mogelijkheden om in het wilde weg te zoeken echter bewust danig ingeperkt. Zo moet je naam en woonplaats intikken van degene wiens telefoonnummer je wilt hebben. Om reden van privacy-bescherming is het onmogelijk gemaakt op telefoonnummer te zoeken.

Privacy is ook de reden dat de CD-foongids uitgebreid beproefd is op veiligheid. Zowel PTT Research als een groep waarvan PTT de naam niet bekend wil maken, hebben geprobeerd in te breken op de schijf. Tot op heden is dat niet gelukt.

Toch komt het regelmatig voor dat je wel iemands naam kent, maar dat je alleen maar weet dat-ie ergens in de buurt van Leeuwarden woont. Technisch is het volgens Zeilstra best mogelijk het programma te vragen de telefoonnummers van alle Lucassen in Leeuwarden of omgeving op te hoesten, maar de PTT wil er niet aan.

Waarom dan wel zo'n flexibele zoektechnologie gebruikt, als je toch niet ongestructureerd kunt zoeken? “Simpel”, zegt Zeilstra. “In de eerste plaats is de onze technologie sneller dan een gewone database-techniek. Bovendien had je de informatie zonder deze technologie niet op een cd gekregen.”

De databank van 06-8008 heeft een omvang van 2500 megabyte, grofweg 1,3 miljoen A4-tjes tekst. Trek je daar de indexen vanaf, de "zoekvlaggen', dan resteren nog 1000 megabyte. Op een cd-rom kun je 600 megabyte kwijt, ongeveer de inhoud van de Encyclopedia Brittanica zonder plaatjes. Door alle gegevens in willekeurige volgorde achter elkaar te plakken en te comprimeren (overigens met bestaande compressietechnieken) zijn, aldus Zeilstra, de 1000 megabyte teruggebracht tot 150 megabyte. Verder is 150 megabyte gebruikt voor de indexen.

In plaats van twee cd-rom's te gebruiken, kon nu met één worden volstaan. En dank zij de combinatie van verschillende technieken is daarop nog ruimte over. Misschien dat de PTT over een tijdje die ruimte kan gebruiken om alsnog ons chaotisch zoekproces te ondersteunen. Bij voorbeeld door de CD-foongids uit te breiden met de mogelijkheid om ook het telefoonnummer op te zoeken van mensen, waarvan we de naam of de woonplaats niet precies meer weten.

    • Joost van Kasteren