Zei hij nou ‘gebracht’ of toch ‘verkracht’?

Het analyseren van afgeluisterde telefoongesprekken zit vol valkuilen In de rechtszaal maakt het nogal uit of een verdachte goed is verstaan Maar de stem van één persoon heeft al heel veel variatie

illustratie thinkstock

Medewerker wetenschap

Een meisje is vermoord in haar huis gevonden. De politie heeft een opname van een telefoongesprek dat misschien licht op de zaak kan werpen. Maar niet alles is goed te verstaan. Een man zegt: ‘En toen zei ze: ik heb er geen zin meer in, ik wil naar huis. Enne ja, toen heb ik haar…”

Ja wat? Wat zei hij? Dat hij haar heeft ‘gebracht’? Of zei hij nou ‘verkracht’?

Deze opname hoort bij een experiment van Maartje Schreuder. Aan de afdeling voor forensisch onderzoek van de Universiteit Maastricht doet de fonologe vergelijkend spraakonderzoek: wie is er hier aan het woord? En ze voert verstaanbaarheidsanalyses uit: wat wordt er exact gezegd? Het zijn niet alleen kwesties waarop haar wetenschappelijk werk zich richt, het zijn ook vragen waarvoor politie of het Openbaar Ministerie haar hulp inroepen.

Schreuder hoopt zich binnenkort gerechtelijk deskundige in de forensische taalkunde te kunnen noemen. Ze is er inmiddels vijf jaar voor in opleiding.

Het experiment met het telefoongesprek omtrent het vermoorde meisje gaat over de rol die context speelt. Schreuder liet proefpersonen het gesprek horen. Sommigen hoorden het mét een introductie van misdaadverslaggever Peter R. de Vries, sommigen hoorden het zonder. Schreuder: „De proefpersonen die het fragment hoorden zónder de introductie van De Vries, verstonden maar in één geval ‘verkracht’. Van de 44 waren er niet meer dan drie die een misdaadwoord hoorden – de andere twee dachten dat er ‘gepakt’ en ‘beetgepakt’ gezegd werd. Maar van de 39 mensen die wel de introductie van De Vries erbij hoorden, waren er maar liefst zeventien die een misdaadwoord hoorden.” In werkelijkheid zegt de man in het gesprek overigens ‘gebracht’.

Context is een van de krachtigste hulpmiddelen die we hebben bij het verstaan van taal, zegt Schreuder. Maar die kan dus zwaar misleiden. „Wanneer de hulp ingeroepen wordt van forensische specialisten is er in zekere zin altijd sprake van een criminele context. Je weet: het gaat om een misdrijf.”

Dikwijls gaat het om afgeluisterde telefoongesprekken. Rechercheurs en taptolken schrijven die uit. Als zij er niet uitkomen, of twijfelen, komt de forensische taalkunde eraan te pas. „Dat gebeurt hier tussen de twintig en dertig keer per jaar”, vertelt Schreuder. „Je bent er steeds twee à drie maanden aan bezig.”

Het ongetrainde oor

Wat komt er dan zoal binnen? Schreuder laat een zogeheten ‘blinde montage’ horen met negen fragmenten van een aantal Antillianen. Hoeveel verschillende mannen het zijn, vertelt ze er niet bij. Het blijkt hondsmoeilijk om de stemmen uit elkaar te houden. Het ongetrainde blote oor is hier niet voldoende.

„Trainen helpt”, zegt Schreuder. Ook als het om een betwist stukje opname gaat. „Eerst maak ik dan een onafhankelijke transcriptie. En in tweede instantie krijg ik het volledige politietranscript. Vaak krijg je wel meteen te horen om welk deel van het gesprek het ging. Bijvoorbeeld minuut 1 plus 3.07. Wat wordt daar gezegd? Daarover zijn dan bijvoorbeeld de advocaat en het Openbaar Ministerie het niet met elkaar eens. Dat ik mijn eigen transcriptie minder goed vind, gebeurt ook wel eens.”

Het is steeds een lastige klus. Om het wie en het wat te bepalen, biedt het forensisch spraakonderzoek nog niet zoveel gegevens en kennis als je zou willen, of misschien zelfs zou denken. Schreuder: „Een kwestie is bijvoorbeeld hoe uniek een bepaald kenmerk is. Er is nog geen antwoord op vragen als: hoe vaak komt deze variatie in toonhoogte voor? En bij wie? Doen alle jongeren van Arnhemse afkomst het zo? Of is dit bepalend voor deze specifieke persoon?”

Bij het herkennen van stemkenmerken speelt veel mee. „Kun je voor zulke dingen een database maken? Hoe hou je rekening met ouder wordende stemmen, met verkoudheden, met het verschil tussen ’s morgens en ’s nachts? Welke emotionele variabelen kun je opnemen in zo’n database?”

Met meten moet je oppassen, vindt Schreuder. „Het is geen exacte wetenschap.” Schreuder zegt het een paar maal. „Taal is nou eenmaal variabel. Terwijl een vingerafdruk altijd precies hetzelfde blijft, hoeveel je je duim ook beweegt. En sommige dingen kun je wel meten en vastleggen, maar je hebt er verder niet veel aan. Neem de klinkers en de overgangen tussen de klanken. Klinkers verschijnen mooi als zwarte banden in afbeeldingen die spectrogrammen heten. Maar we gebruiken dat niet, want het zegt niet meer dan wat je gewoon verstaat. Bovendien: wanneer je cijfers uit metingen levert, ziet het er toch uit als exacte wetenschap. En dat is het dus niet.”

Dan komen er ook nog de film- en televisiemisverstanden bij: „Bij CSI geven ze je altijd de illusie dat je één bepaalde bron eruit kunt filteren. De muziek bijvoorbeeld. Maar dat is niet zo. Je kunt wel een bepaalde frequentie eruit halen, maar dan is ook alles van die frequentie weg. Dus je kunt nog steeds niet één stem eruit halen als je een opname in een druk café hebt. Terugluisteren is het enige dat erop zit.”

Wat hoor je wel aan een stem?

„Een glimlach hoor je. Het kan schelen hoe iemand eraan toe is. Verkoopt hij stoere praatjes aan de telefoon, of zit hij in mineur in voorarrest bij een ondervraging? Dat klinkt echt anders. Dat maakt het soms niet simpeler.”

Wat bepaalt nou een stem? Wat kun je ervan meten?

„De vraag is eigenlijk altijd wat zin heeft om te meten. Bij het einde van een zin zie je bijvoorbeeld altijd dezelfde contouren: van omhoog naar beneden. Het kan belangrijk zijn voor wat iemand zegt om te weten of hij aan het eind van zijn zin was of niet. Maar is er reden dat systematisch vast te leggen?

„En neem toonhoogte, dat is de trillingsfrequentie van de verplaatste lucht. Toonhoogte beïnvloed je zelf. In de praktijk laat je hem afhangen van je stemming, en ook van met wie je praat. Je kunt toonhoogte ook bewust aanpassen. Je hebt binnen één individu al zo veel variatie, dat je niet zomaar kunt vaststellen dat het beslist die ene persoon is.

„Geluid heeft overigens niet één toonhoogte, maar een heleboel frequenties binnen een spectrum. Vergelijk het met de kleuren van de regenboog. Maar nou net bij een telefoongesprek gaat je spectrum eraan. Want alle hoge en lage frequenties worden er standaard uitgefilterd. Voor de verstaanbaarheid heb je die uitersten niet nodig, maar daar zitten nou wel juist de kenmerken die bij metingen sprekerspecifiek kunnen zijn.”

Schreuder laat nog een voorbeeld horen, om aan te geven hoe weerbarstig de praktijk kan zijn. Het speelt in Australië, een jongen belt vanuit zijn ouderlijk huis. Zijn moeder en stiefvader zijn dood, vermoord, en zijn broertjes en zusjes ook. Hij klinkt ademloos en geëmotioneerd. Maar wat zegt hij? ‘I shot the prick?’ Of: ‘I can’t breathe?’ Het maakt nogal wat uit: ‘ik heb de klootzak neergeschoten’ of ‘ik krijg geen lucht’. Het zou allebei kunnen, hoewel meeste mensen de luchtvariant erin horen.

De opname is uiteindelijk niet afgespeeld tijdens de rechtszaak, maar die jongen heeft naar verluidt wel een tijd vastgezeten. Schreuder: „Zelf versta ik altijd iets heel anders: ‘Ik had er niet aan moeten zitten’, ‘I shouldn’t have touched it’. Ze laat het fragment nogmaals horen, en ja, nu ze het zegt, dat zou het óók kunnen zijn. Sterker nog: dat is het vast. Een suggestie beïnvloedt dus meteen wat we horen. Schreuder: „Ook daarom blijft elke conclusie de subjectieve overtuiging van de expert. Je hebt ook ander bewijsmateriaal nodig.”