U spreekt, het schrijft

Het is een bijzonder vlotte typiste met wie dr. Schuur aan het telefoneren is. En ze heeft aan een half woord genoeg. Terwijl Schuur de opgehangen röntgenfoto's aandachtig bekijkt en zegt "thorax normaal', tikt de onzichtbare typiste aan het andere eind van de lijn zes regels op het scherm waarin een stuk of zes bij naam genoemde afwijkingen aan de borstkas worden uitgesloten. Het hart is niet vergroot, de longen zijn in orde en dat wordt allemaal gedetailleerd en in potjeslatijn op het scherm vertoond.

Schuur zit in de "centrale beschrijfruimte' van het St. Elisabethziekenhuis in Tilburg. Hij is radiodiagnost en een belangrijk deel van zijn werk bestaat uit het interpreteren van röntgenfoto's. In de beschrijfruimte worden de foto's voor grote lichtbakken gehangen en de radiodiagnost maakt dan zijn rapport. Aan de andere kant van de telefoon zit geen typiste, het krulsnoer verdwijnt in de krachtge pc die op zijn bureau staat en het is dit apparaat dat zijn woorden in tekst omzet. Zijn ziekenhuis is een van de drie Nederlandse ziekenhuizen waar een systeem voor stemherkenning is geïnstalleerd.

Gewoonlijk gebeurt het maken van rapporten met een klein casetterecordertje. De radiodiagnost (of radioloog) noemt het nummer van de patiënt, spreekt zijn bevindingen in en op de typekamer tikken de typistes later zijn bandje uit.

Het Elisabethziekenhuis is een groot ziekenhuis. Jaarlijks worden er van 100.000 patienten röntgenfoto's, scans of echo's gemaakt en van al die verrichtingen moet een rapportje komen. Liefst snel, want de huisartsen en specialisten die een patiënt hebben doorverwezen, willen niet te lang wachten.

Schuur: ""Zo'n jaar geleden liep het spaak. We hadden een paar uitvallers in de typekamer, de onuitgewerkte bandjes stapelden zich op en we kregen achterstanden van een tot twee weken.''

Een van de collega's van Schuur had op een congres kennis gemaakt met een computersysteem voor stemherkenning. Ze besloten het eens te proberen en gingen in zee met VoiceRad van het Amerikaanse bedrijf Kurzweil AI. Het bestaat al een paar jaar en het is door het in Tilburg gevestigde MDT voor de Nederlandse markt bewerkt. IBM experimenteert met een soortgelijk programma, maar het produkt verkeert nog in de ontwikkelingsfase.

Schuur zou het project gaan trekken, want Schuur wist niets van computers. ""Mijn collega's zeiden: "Als jij er mee kan werken, kunnen wij het ook'.''

Schuur kan er goed mee overweg. VoiceRad maakt de cassetterecorder en de typiste overbodig en op de typekamer sneuvelt binnenkort de eerste 0,4 taakeenheid.

Telefoonhoorn

De radioloog spreekt zijn diagnose in de telefoonhoorn en op het scherm verschijnt vrijwel onmiddellijk de ingesproken tekst. Als het af is, zegt Schuur "handtekening' en dat heeft tot gevolg dat het rapport wordt geprint en verstuurd. Schuur: ""Ik vind het nog steeds heel bijzonder, ik kan me eigenlijk nauwelijks voorstellen dat het kan.''

Maar het kan, al wordt snel duidelijk dat het programma maar een beperkte werkingssfeer heeft. VoiceRad herkent alleen de stem van Schuur, en dan nog alleen de woorden die hij het apparaat heeft aangeleerd. Komt Schuur op een woord dat het programma niet kent, dan typt hij het eerst in en spreekt het dan twee keer in de telefoonhoorn. De volgende keer dat Schuur dat woord gebruikt zal het programma het waarschijnlijk herkennen. In de praktijk wordt veel van codes gebruik gemaakt die een complete zin of een alinea "triggeren'. Als Schuur zegt "thorax normaal', weet de computer dat hij niet met "thorax normaal' moet komen aanzetten, maar met de zes regels standaarddiagnose die Schuur eens heeft ingetypt en door die twee woorden getriggerd worden. Het inspreken van de code "HA02' levert zelfs "Met collegiale groeten' op. Bij een standaarddiagnose pauzeert de tekst zo nu en dan, om Schuur de gelegenheid te geven "links', "rechts', "boven' of "beneden' in te spreken.

Het programma stelt je dus niet in de gelegenheid vrij associërend en met veel eh's een mooi essay te componeren. Het gaat woord voor woord, met steeds een verplichte korte pauze. Enig ingebouwd benul van grammatica of van röntgenfoto's heeft het programma niet, het enige waar het iets van weet is van de opbouw van een röntgenrapportje. Als een collega van Schuur met VoiceRad zou willen werken, moet hij het programma eerst woord voor woord op zijn stem en zijn uitspraak trainen. Op dezelfde manier kan het programma ook geleerd worden dat het bepaalde geluiden moet negeren: rinkelende of tsjirpende telefoons, overvliegende vliegtuigen.

Monster

Zoals in elk programma voor stemherkenning wordt ook in VoiceRad geluid omgezet in bits, in enen en nullen. Van elk in de microfoon ingesproken woord wordt zo'n tienduizend keer per seconde een monster genomen. Dat monster wordt gemeten en de meetwaarde krijgt een aantal codes die toonhoogte, volume en klank representeren (de CD werkt volgens hetzelfde principe). Een geluid, bijvoorbeeld de uitspraak door radioloog X van het woord "thorax', kan dan als een code van zo'n 10.000 enen en nullen op de harde schijf van de computer worden weggeschreven. Vervolgens wordt met die code een andere (veel kortere) code verbonden, de letters van het woord "thorax' bijvoorbeeld, of van "borstkas' of van wat dan ook. Zo kunnen duizenden geluiden als digitale codes worden weggeschreven, samen met hun vertaling. Telkens als de radioloog het woord "thorax' uitspreekt, zal de computer dat woord bliksemsnel in enen en nullen vertalen en nagaan met welke reeks in zijn collectie die zojuist ontvangen reeks het meest overeenkomt. Als hij een goede match heeft gevonden zal hij de vertaling op het scherm tonen: thorax, of borstkas, of wat dan ook.

In de praktijk is het veel ingewikkelder, want op de beschreven wijze worden veel te veel enen en nullen gegenereerd. De harde schijf zou gauw vol zijn en het zoeken naar de juiste match zou veel te lang duren. Er moet dus aan datareductie worden gedaan. Filters reduceren het geluid tot de belangrijkste onderdelen en met signaalbewerkingstechnieken worden daar nog weer eens de meest betekenisvolle delen uit geselecteerd. Het resultaat kan een code zijn die tien keer zo klein is als de oorspronkelijke code, maar waarin alle essentiële informatie nog aanwezig is.

De toepassing van systemen als VoiceRad blijft beperkt tot een sterk gestandaardiseerd genre: in dit geval het röntgenrapport, maar ook het rapport van een chirurg of een EHBO-arts komt voor een stemherkenningsprogramma in aanmerking. Buiten de medische sfeer valt te denken aan processen verbaal, schaderapporten en inventarisaties.

Twee richtingen

Intussen gaat de ontwikkeling door en er zal wel eens een tijd komen dat het toetsenbord voor tekstinvoer overbodig is. Op vele plaatsen in de wereld werken computergeleerden aan stemherkenning. Het onderzoek beweegt zich globaal in twee richtingen. Aan de ene kant wordt er gewerkt aan systemen die spreker-onafhankelijk zijn, maar een beperkt vocabulair beheersen. Aan de andere kant is er de sprekers-afhankelijke richting, die een veel groter vocabulair toestaat, maar eerst door zijn gebruiker getraind moet worden. Een andere keuze die gemaakt moet worden is de kwestie continue spraak of pauzeren tussen de woorden. Kiezen voor het eerste betekent onvermijdelijk een geringere woordenschat. Ook de hoeveelheid achtergrondgeluid die je wilt toestaan legt beperkingen op aan de prestaties van het systeem.

Een programma dat de natuurlijke taal begrijpt van iedereen is dus nog een heel eind weg. Misschien maar beter ook, want wie zich nu al stoort aan de toetsenklikkende laptop-gebruikers in de trein, die moet aan een medepassagier die zacht maar dringend op zijn computer inpraat al helemaal niet denken.