OMKEREN VAN FONEMEN HEEFT AMPER EFFECT OP VERSTAANBAARHEID

Het vermogen om menselijke spraak te verstaan, kan wel tegen een stootje. Geluiden van een paar milliseconden (ms) kunnen soms al een betekenisverschil in een woord veroorzaken, maar ook als iemand met volle mond praat of lispelt, is hij of zij vaak nog redelijk te verstaan, ook al komt er net een trein langs of hoest iemand er net doorheen.

Een bioloog en een psycholoog van het California Institute of Technology (Caltech) onderzochten hoe ver gewone spraak verstoord kan worden zonder dat het onbegrijpelijk wordt. Het blijkt dat pakketjes van 50 ms zonder veel problemen kunnen worden gestoord. De belangrijkste betekenisdragende veranderingen bevinden zich op het niveau van 125 tot 300 ms, aldus de onderzoekers. (Nature, 29 april). De onderzoekers beschouwen hun experiment als steun voor de theorie van Steven Greenberg (Universiteit van Californië, Berkeley). Volgens Greenberg is niet de foneem (de kleinste onderscheidbare klankeenheid van een taal) de informatiedragende eenheid, maar de lettergreep: de syllabe. Greenberg meent dat dit principe belangrijke implicaties heeft voor de huidige systemen van spraakherkenning, zoals Freespeech van Philips, die in principe gebaseerd zijn op foneemherkenning. Overigens zou volgens de New Scientist (24 april) de Belgische firma Lernout & Hauspie al een spraakherkenningssysteem (voor callcentres) hebben ontwikkeld dat wèl gebaseerd is op `langere klanken'.

De Caltech-onderzoekers verdeelden een spraakfragment onder in pakketjes van 50 ms, en draaiden telkens die pakketjes om. Het fragment bleek goed te begrijpen, hoewel in het fragment – onderverdeeld in telkens omgedraaide stukjes van 50 ms – in feite alle klanken achterstevoren werden afgespeeld. Volledig in één keer achterstevoren afgespeelde spraak is volkomen onbegrijpelijk, maar de per 50 ms omgekeerde spraak klinkt hooguit een beetje haperend. Toch is 50 ms in spraak geen verwaarloosbare tijdseenheid. Integendeel, stukjes spraak van 50 ms (juist afgespeeld) zijn vaak goed te herkennen als een bepaalde klank, en omgekeerd niet.

Als de lengte van de omgekeerde pakketjes langer werd dan 50 ms, daalde de begrijpelijkheid van de tekst snel. Bij 130 ms scoorden de zeven luisteraars in het Caltech-experiment nog een begrijpelijkheid van 50 procent, bij 150 ms was die nog maar 25 procent en als de omkeringen plaatsvonden in brokken van 200 ms was er geen touw meer aan vast te knopen. Opmerkelijk was dat herhaalde blootstelling aan spraakfragmenten met omkeringen van 100 ms leidde tot een verbeterde begrijpelijkheid, vergelijkbaar met de gewenning aan een vreemd accent.

Ook andere manipulaties gaven eenzelfde beeld te zien: wanneer pakketjes van 50 ms niet werden omgedraaid maar 100 of 150 ms werden opgeschoven in het spraakfragment, leidde dat niet tot problemen. Het Caltech-experiment is overigens op een multimediacomputer thuis redelijk te imiteren. Op www.nrc.nl is zo'n spraakmanipulatie te beluisteren.

(Hendrik Spiering)

    • Hendrik Spiering