Gesneden stemmen

Ieder mens heeft een karakteristieke stem. Systemen voor telefonische automatische identiteitscontrole maken er dankbaar gebruik van. `You're accepted by the system.'

BEL 0016508477695 en aan de andere kant van de lijn zegt een automaat: `Welcome to the Voice Shopping Network brought to you by Nuance Communications. Beginning voiceprint verification.' Het gaat hier om een demo. Nuance is een softwarebedrijf op het gebied van spraaktechnologie, gevestigd in Sillicon Valley, Californië. Juni vorig jaar lanceerde het voor Home Shopping Network, dat 24 uur per dag de Amerikaanse kabeltv-kijker tot telefonische aankopen hoopt te verleiden, een systeem om aan de hand van stemgeluid de identiteit van klanten te verifiëren. Vergeleken met de omslachtige en tijdrovende procedure van vroeger – lidmaatschaps-code en creditcardnummer intoetsen en via keuzetoetsen vragen beantwoorden – is dat een enorme verbetering. Het nieuwe systeem vraagt de klant een reeks cijfers in te spreken, denkt een paar seconden na en zegt na herkenning op montere toon: `you're accepted by the system'.

Larry Hack, directeur onderzoek bij Nuance, lichtte de Verifier onlangs toe op het symposium `Humans, Computers and Speech', onderdeel van de jaarbijeenkomst van de American Association for the Advancement of Science (AAAS) in Washington. Het bijzondere van het systeem is dat het een integratie betreft van spraakherkenning (de computer begrijpt wat er wordt gezegd) en verificatie van identiteit (de computer herkent om wie het gaat). Hack: ``Het is een heel gebruikersvriendelijk systeem. Wie Home Shopping Netwerk voor het eerst opbelt wordt gevraagd zijn telefoonnummer in te spreken, plus nog een telefoonnummer met de naam aan wie het toebehoort. Op basis van deze gegevens maakt de computer een stemprofiel en slaat dat op. In een halve minuut is het voor elkaar.''

DUBBELE CONTROLE

Bel je Home Shopping Network opnieuw, dan vraagt het systeem eerst om je telefoonnummer. Nadat spraakherkennings-software de getallen heeft herkend zoekt de computer op welke naam erbij hoort, waarna de Verifier het opgeslagen stemprofiel naast dat van de beller legt. Is er overeenstemming, dan krijgt de klant toegang en kan hij bestellen. Hack: ``Het is een effectief systeem en vanwege de dubbele controle is de veiligheid zeer goed. Nu past Home Shopping Network de Nuance Verifier alleen nog maar toe in San Francisco, goed voor 250.000 geregistreerde stemprofielen en 20.000 telefoontjes per dag. Maar weldra komt New York erbij en in 2002 verwachten we boven de 5 miljoen klanten te zitten. Ook effectenmakelaar Charles Schwab experimenteert met de Verifier en veel internetbedrijven zijn sterk in het systeem geïnteresseerd – een grote groep mensen gruwt van pincodes. Het is de eerste grootschalige toepassing op dit terrein.''

Stemverificatie is een biometrische methode, vergelijkbaar met het afnemen van een vingerafdruk of het bekijken van de iris. Het voordeel van stemgeluid als identificatiemiddel is dat praten heel natuurlijk is, dat het ook op afstand werkt en dat speciale input-apparatuur niet vereist is. Overal zijn (mobiele) telefoons en veel pc's beschikken standaard over een microfoon. Overigens is het natuurlijk het veiligst een combinatie te nemen van iets dat je hebt (een badge), iets dat je weet (een pincode) en iets dat je bent (bezitter van een uniek stemprofiel).

Een toepassing die binnen een paar jaar de stap van het laboratorium naar de markt zal maken is het gericht zoeken in geluidsbestanden. Hack: ``Stel je hebt het complete bestand van een paar jaar CBS-nieuwsuitzendingen en je bent geïnteresseerd in alle clips met Bill Clinton. Een stemherkenner vist die er zo voor je uit.'' Ook op forensisch gebied zijn er perspectieven: een bankovervaller kan een nylonkous over zijn hoofd trekken maar zijn stem, al dan niet verdraaid, zal hem verraden en wellicht dat de stemherkenner in de toekomst een dader kan aanwijzen – of een verdachte ontlasten. Wat de vraag opwerpt hoe de privacy bij Home Shopping Network en andere afnemers van Nuance geregeld is.

Op het AAAS-symposium sprak Douglas Reynolds van het Massachusetts Institute of Technology (MIT) over de stand van zaken in het onderzoek naar automatische stemherkenning. Het moeilijkst is een spreker te identificeren (dat is: uitzoeken welk stemprofiel uit de aangelegde verzameling past bij het aangeboden geluid) als je geen controle hebt over wat de spreker het systeem zal vertellen, bijvoorbeeld omdat je hem of haar niet wil ontrieven door naar een wachtwoord of pincode te vragen. In zo'n situatie gaat een herkenner snel in de fout. In praktische toepassingen, met aanvaardbare aantallen onterechte afwijzingen en onterechte acceptaties (die voor banktransacties anders liggen dan bij het bestrijden van fraude op een tolweg), gaat het tot nu toe steeds om systemen die aan de hand van één op één controles en volledige zeggenschap over wat de spreker zal zeggen, nagaan of de opgegeven identiteit klopt. Alleen onder die voorwaarden is een robuust en veilig systeem mogelijk, dat niet van slag raakt als iemand verkouden is en dat zich niet door de eerste de beste imitator laat foppen.

PROFIEL

Een stemherkenner destilleert uit het aangeboden geluid een aantal kenmerkende eigenschappen, in het geval van de Nuance Verifier 39 stuks. Daartoe snijdt de computer de opname in plakjes van 20 milliseconde die vervolgens elektronisch uiteen worden gerafeld en aan de hand van statistische methoden (Hidden Markov Models) worden vertaald in een profiel dat voor iedereen uniek is. Reynolds: ``Als je nadenkt over hoe mensen een stem herkennen kom je tot een hiërarchie van factoren. Bovenaan staan aangeleerde, cognitieve kenmerken als woordgebruik, zinsbouw en dictie. Dan komen prosodische eigenschappen als ademhaling, snelheid en ritme. En onderaan de ladder staan fysiologische eigenschappen als de hoogte van de stem, hoe zwaar hij klinkt en of er bijvoorbeeld sprake is van door de neus praten. En juist van die lagere factoren moet een automatische herkenner het hebben. Daarbij gaat het altijd om een mix, een silver bullit bestaat niet in dit vak.''

Het voordeel van het leunen op lagere factoren is dat een stemherkenner zich niet zomaar laat misleiden. Hack: ``Imitators richten zich juist op de hogere factoren. Ze pikken idiosyncratische zaken als stopwoordjes, het laten vallen van pauzes of het hanteren van gezwollen taal eruit en maken er een karikatuur van. Automatische stemherkenners baseren zich daarentegen op eigenschappen die veel lastiger zijn na te bootsen omdat ze direct met de fysiologie van je stemapparaat te maken hebben. Ik geloof niet dat hier een bedreiging ligt. In Edinburgh in Schotland gaat deze maand een experiment van start waarbij een onderzoeksgroep professionele imitators heeft ingehuurd die moeten proberen om zich de Nuance Verifier binnen te praten. Ook eeneiige tweelingen doen eraan mee. Het is een tamelijk kleinschalige proef maar ik ben zeer benieuwd naar de uitkomst.''