Selectief luisteren

Een computerprogramma dat simuleert hoe het menselijke binnenoor geluiden waarneemt, scheidt spraak beter van andere geluidsbronnen dan bestaande software.

Mensen kunnen elkaar doorgaans goed verstaan in een ruizige omgeving, bijvoorbeeld in een drukke kroeg met veel geroezemoes, achtergrondgeluiden en muziek. Onze hersenen herkennen de spraakcomponenten in een zee van andere geluiden. Computerprogramma's voor spraakherkenning kunnen dat niet, en interpreteren daarom ook alle ruis als spraak. Bij de Universiteit Twente converteert een computer bijvoorbeeld dagelijks het geluid van (televisie)nieuwsbulletins naar tekstbestanden. Het programma interpreteert slechts 70% van de woorden correct. Dat komt enerzijds door nieuwe woorden (poederbrief, bolletjesslikker), buitenlandse woorden (meeting, joie de vivre), en onbekende persoonsnamen (Shivra Hertzberg werd `Shiva heeft pech'). Anderzijds vormt ruis een fundamenteel probleem. De computer hoort geen verschil tussen de stem van de verslaggever, het geluid van een klapschaats, het startschot, of het juichende publiek.

``Alle tot nu toe gebruikte methoden voor automatische spraakherkenning gaan uit van een aantal vaste, mogelijk onjuiste veronderstellingen, en beschikken niet over de flexibiliteit die juist bij mensen zo sterk ontwikkeld is,'' zegt Tjeerd Andringa. Onlangs promoveerde hij in Groningen op een nieuwe methode om geluidssignalen te bewerken, alvorens een computer ze in tekst probeert om te zetten. De essentie van zijn Continuity Preserving Signal Processing (CPSP) is het scheiden van geluid in verschillende geluidsbronnen.

De huidige generatie ASR (Automatic Speech Recognition) systemen knipt het geluid op in fragmenten die (hopelijk) overeenkomen met gesproken woorden of delen van woorden. Zogenaamde Hidden Markov Modellen (HMM) vergelijken die spraakfragmenten met een grote database van woorden, en de computer kiest daaruit het woord dat het beste past. Zulke systemen zijn sterk persoonsgebonden, en de gebruiker moet het programma eerst urenlang trainen. In die trainingsfase genereert de computer de database met woordpatronen die horen bij de uitspraak van de gebruiker.

Andringa gebruikt voor zijn nieuwe methode een model van het menselijk gehoororgaan dat werd ontwikkeld door zijn promotor, prof. Diek Duifhuis. Spraak komt als geluidsgolven de gehoorgang binnen. Het trommelvlies geeft die trillingen via de gehoorbeentjes door aan het met vloeistof gevulde slakkenhuis (cochlea) in het binnenoor. Het basilair membraan deelt de cochlea over de gehele lengte (ongeveer 3,5 cm) in tweeën. Haarcellen op dit membraan zijn gevoelig voor frequenties van 20 kHz (aan de ingang van het cochlea) tot 20 Hz (helemaal binnenin), en stimuleren de neuronen van de gehoorzenuw. Iedere frequentie brengt een specifiek deel van het basilair membraan in trilling. Het computermodel van Andringa en Duifhuis volgt de natuurlijke eigenschappen van het binnenoor nauwkeurig, en berekent waar en in welke mate een geluidssignaal het membraan stimuleert. Het resultaat is een cochleogram, dat op elk tijdstip weergeeft welke frequenties in het geluid aanwezig zijn, en waar die op het basilair membraan worden waargenomen. Uit de samenhang tussen de energiepieken in het cochleogram bepaalt het programma welke informatie afkomstig is van eenzelfde (enkelvoudige) bron. Voor spraakherkenning is dit natuurlijk de stem van de spreker. Andringa: ``Spraak ontwikkelde zich miljoenen jaren later dan het auditieve systeem. Waarschijnlijk heeft de spraak zich daarom aangepast aan het gehoor.'' CPSP gebruikt twee hiervan afgeleide aannames: het menselijk gehoor is aangepast om in uiteenlopende omstandigheden zo goed mogelijk te functioneren, en de belangrijkste informatie over de taal bevindt zich in die delen van het geluid die ook onder ruizige omstandigheden goed herkenbaar blijven. Spraaktechnologen spreken van ruisrobuuste signaalcomponenten. Deze aannames zijn de belangrijkste conclusies uit onderzoek van onder meer Harvey Fletcher, in de jaren 20 en 30 van de vorige eeuw. Concreet betekent het dat pieken in het cochleogram de dragers zijn van de taal, en dat identificatie van deze ruisrobuuste signaalcomponenten daarom leidt tot de beste linguïstische interpretatie. In een cochleogram zijn ze herkenbaar als `ridges', de samenhangende reeksen van pieken.

samenhang

Andringa's methode combineert ridges die op basis van eenvoudige fysische eigenschappen bij elkaar horen. Zo moet er bijvoorbeeld een consistente samenhang bestaan tussen de verschillende harmonischen, die in het cochleogram herkenbaar zijn als veelvouden van een basisfrequentie. Op die manier is het mogelijk om uit het aangeboden geluid een enkele bron (spreker) te separeren. De methode is geoptimaliseerd door vergelijking van het voorkomen van dezelfde ruisrobuuste signaalcomponenten in schoon, en in met ruis verontreinigd geluid. CPSP breekt het signaal dus niet op in stukken, maar hanteert juist de tijdscontinuïteit als leidraad bij het volgen van de individuele geluidsbronnen, en kan zo spraak scheiden van ruis.

Bij het streven naar Human Quality spraakherkenning is het belangrijk te bedenken dat ook mensen lang niet altijd spraak perfect kunnen herkennen. Zo horen sommige mensen een werkwoord in de zin `zes geiten in de gang'. En hoe nadrukkelijk je ook `een tleine jongen' zegt, iedereen verstaat `een kleine jongen'. Bovendien maken we (onbewust) gebruik van visuele hints uit gelaatsuitdrukkingen. Jont Allen, onderzoeker bij AT & T Bell Laboratories in New Jersey, demonstreert dit aan de hand van een videofilmpje. Met gesloten ogen hoor je duidelijk iemand `baba' zeggen. Zodra je echter je ogen opent, verandert dit op slag in `gaga'. Dat komt omdat de mond van de spreker niet in gesloten toestand begint - een voorwaarde om de b te kunnen zeggen. Uit die visuele informatie concluderen de hersenen dat je onmogelijk een b hebt kunnen verstaan. De perceptie verandert daarom in een klank die erop lijkt, en wel bij het beeld past: gaga. Dit McGurk effect werd bij toeval ontdekt toen beeld en geluid een keer niet synchroon liepen. In het demonstratiefilmpje is dit met opzet gedaan.

Nadat het geluid met CPSP is behandeld, worden nu nog de traditionele methoden van spraakherkenning toegepast. In de toekomst wil Andringa ook daarvoor iets beters ontwikkelen. Niettemin verstaat de computer de menselijke spraak beter, en behaalt een topscore in de Aurora test, een internationale standaard test op het gebied van (ruisrobuuste) spraakherkenning. Het bedrijf Human Quality (HuQ) Speech Technologies, waarvan Tjeerd Andringa oprichter en directeur is, ontwikkelt momenteel producten voor automatische spraakherkenning op basis van CPSP. Maar voorlopig gebruikt ook Andringa voor zijn interactie met computers nog gewoon een toetsenbord.

Meer informatie op www.huq.nl