De computer krijgt oren

Een brief dicteren, de computer besturen met de stem – tikken en klikken is voor de pc-gebruiker niet langer noodzakelijk met spraakherkennings- software. Zelfs een accent kan de computer leren herkennen.

Een deel van dit artikel is niet geschreven, maar ingesproken. Tijdens het spreken is het in tekst omgezet, niet door een secretaresse, maar door de computer zelf.

Spraakherkenning door de computer is ongeveer tien jaar lang een belofte geweest, maar lijkt nu eindelijk commercieel bruikbaar te zijn geworden. Er zijn vier softwarepakketten op de markt, waarvan FreeSpeech van Philips (vanaf 269 gulden) en Voice Xpress (vanaf 84 gulden) van de Belgische firma Lernout & Hauspie door computerbladen om beurten als beste worden beoordeeld.

Het probleem waardoor spraakherkenning zolang een belofte is gebleven, is het herkennen van normale spraak. Bij normale spraak staan de woorden niet los van elkaar maar worden ze met elkaar verbonden, wat we het beste merken wanneer we naar buitenlandse spraak luisteren. Voor de computer is het nog moeilijker dan voor een ongeoefende luisteraar om uit die brij van geluid losse woorden te destilleren. Mede dankzij de toegenomen snelheid van computers zijn softwaremakers nu in staat de herkenning vrij goed te laten verlopen. Daardoor is het nu mogelijk de computer toe te spreken in normale spraak, en is het in theorie niet meer nodig tussen elke twee woorden een pauze in acht te nemen.

Daarvoor moet wel aan een aantal eisen zijn voldaan. Er mag bijvoorbeeld niet al te veel omgevingslawaai zijn. De stem van de gebruiker moet voor de computer duidelijk klinken, en een machine is op dat gebied minder tolerant dan een mens. Als mens heb je bijvoorbeeld veel houvast aan de richting waaruit het geluid komt, aan de lipbewegingen van een gesprekspartner en aan de inhoud van het voorafgaande deel van het gesprek. Al deze informatie mist de computer. De verhouding tussen achtergrondgeluid en spraak wordt bij installatie van een spraakherkenner gemeten. De gebruiker kan dit verbeteren door de microfoon in een zo goed mogelijke positie voor de mond te houden: dichtbij, maar niet recht ervoor – want dan wordt het geblaas van de ademhaling hinderlijk. Ook kan de zoemende computerkast ver weg worden gezet. Microfoons ver van de mond, bijvoorbeeld ingebouwd in een beeldscherm, zijn onbruikbaar. Bij spraakherkenningssoftware worden geschikte microfoons meegeleverd, bevestigd aan een headset.

Een andere eis is dat de spreker van zichzelf redelijk verstaanbaar is. Een accent of spraakgebrek kan een probleem zijn. Ook dit wordt bij installatie gecontroleerd. Een aanstaande gebruiker moet een aantal standaardteksten inspreken die door de pc worden verwerkt. Voordeel hierbij is dat de computer weet wat er komt. Hieruit ontstaat een profiel, dat elke keer wordt opgeroepen als dezelfde gebruiker zich meldt. Spraakherkenners kunnen verschillende profielen opslaan.

Het is belangrijk twee soorten spraakherkenning te onderscheiden. De eerste is spraakbesturing. Daarbij wordt het klikken van de muis vervangen door gesproken commando's. Dit is voor de computer relatief makkelijk. Er hoeft maar een klein aantal commando's van elkaar te worden onderscheiden, en dit gaat dan ook zelden verkeerd. Met de genoemde softwarepakketten kunnen vrijwel alle handelingen met de muis worden geëlimineerd. Een uitkomst voor mensen met een muisarm.

Iets heel anders is het dicteren van tekst. Kleine, subtiele verschillen moeten daarbij juist worden geïnterpreteerd, terwijl er soms niet twee, maar wel vijf mogelijkheden zijn. De kans op fouten is daarbij veel groter. Bij dicteren is het dan ook altijd nodig de software te trainen. Als er fouten worden gemaakt, moet de juiste versie er expliciet worden ingestampt. Tot komst vooral in het begin veel extra tijd om hommel verbloemen

(Hier heeft de auteur de spraakherkenning maar uitgezet.)

`Dat kost vooral in het begin veel extra tijd', had er moeten staan. `Om hommel verbloemen' was het resultaat van het wegsmijten van de headset.

Leren werken met spraakherkenning is niet eenvoudig. Om te beginnen worden de ingeslepen muishandelingen vervangen door gesproken commando's, en die moet je dus leren. Soms zijn die zeer vanzelfsprekend, zoals `Start [naam programma]', soms zijn ze wat gekunsteld, zoals `Verander naar [naam programma]' om een tweede actief programma op het scherm naar voren te halen, en soms zijn ze lachwekkend, zoals `Ga twee lijnen naar beneden' als de cursor twee regels omlaag moet (deze commando's komen uit het Vlaamse Voice Xpress).

Hoe dan ook, de gebruiker staat opeens aan het begin van een lange leercurve en voelt zich weer als de eerste de beste beginneling, met alle irritatie van dien. Sommige gesproken commando's zijn objectief veel moeilijker dan de corresponderende muishandeling. Gelukkig blijft normaal gesproken de muis beschikbaar en is niemand verplicht de microfoon te gebruiken.

De eerste emoties bij het gebruiken van de dicteerfunctie zijn verbazing en blijdschap. 140 woorden per minuut is wel even wat anders dan 140 aanslagen per minuut. En in een woord dat juist is herkend, staan per definitie geen tikfouten. Spraakherkenning belooft veel meer snelheid bij het `schrijven'. Maar als de eerste fouten de kop opsteken piep je wel anders. Het trainen van woorden houdt behoorlijk op. En hoe elimineer je een spatie te veel, hoe voeg je een spatie in waar hij is weggelaten? Spraakcommando's blijken veel trager dan even klikken met de muis.

Daar komt nog bij dat de spraakherkenner niet altijd begrijpt dat een mededeling bedoeld is als commando, zodat keurig in de tekst wordt ingevoegd: `Gaan naar het eind van de regel' (bedoeld is: ga naar het eind van de regel). Wanneer dit bij herhaling verkeerd gaat, wordt ook een godslasterlijke verzuchting onverstoorbaar opgeschreven. Woorden die het ene moment onmiddellijk herkend worden blijken even later een onoverkomelijk probleem te vormen (in casu `Verbinding', waarmee in dit geval internet moest worden geactiveerd).

Tussen de bedrijven door blijkt de spraakherkenning een zware belasting voor het systeem. 64 MB werkgeheugen is het minimum waarbij de zaak wordt geacht te werken. Zoals wel vaker bij de minima die voor software worden voorgeschreven, is dit meer bedoeld om kopers niet af te schrikken (die geheugenuitbreiding kopen ze daarna óók nog wel, zal de gedachte wel zijn) dan als correcte weergave van de feiten. Voice Xpress werkt uitermate traag op een pc met 64 MB en loopt al spoedig vast. Ook de tekstverwerker (Microsoft Word 97) geeft de geest in de nabijheid van Voice Xpress. Het e-mailprogramma heeft er dan al verschillende weigeringen op zitten. Advies daarom: begin er niet aan als er niet ten minste 96 MB werkgeheugen in de pc zit. Dat komt trouwens niet alleen de snelheid ten goede; ook de herkenning zal erdoor opknappen. Ook zijn er honderden MB's nodig op de harde schijf – spraakherkenners zijn echte veelvraten.

Het moet gezegd, niet hoeven tikken en klikken is een verademing. Maar naast het leren van de gesproken commando's en het trainen van de herkenningssoftware heeft de gebruiker dan een derde leerervaring voor de boeg. Om de een of andere reden is het sprekend componeren van een verhaal heel iets anders dan typend schrijven. Het valt ongetwijfeld te leren, maar het is niet gezegd dat het iedereen even goed zal bevallen. Het zou kunnen schelen als je opgroeit met spraakherkenning. Dat moet nog worden aangetoond, maar als dat waar is, zitten we wel met een complete generatie die op dit gebied is gehandicapt.

Ten slotte is het nog verre van duidelijk of werken met spraakbestuurde computers overal gewenst is. Weliswaar is geaccepteerd dat kantoorwerkers voortdurend in telefoons zitten te praten, maar of het in de kantoortuin makkelijk zal worden verdragen als er brieven en rapporten worden ingesproken wanneer men eens niet belt, is niet zeker. Hoe meer mensen dit doen, hoe meer achtergrondgeluid er is en hoe slechter de spraakherkenning voor iedereen werkt.