Mijn telefoon begrijpt me

Technologie Wat voor weer is het in Londen? Hoe kom ik het snelst naar huis? Met spraakherkenning verandert de smartphone in een assistent die – bijna – alles begrijpt wat je zegt.

Zijn stem was indringend, zijn kennis oneindig. En hij kon zelfs liplezen. Van alle alwetende computers uit de filmgeschiedenis was HAL 9000, het boze, rode oog uit Stanley Kubricks 2001: A Space Odyssey misschien wel de engste.

In 1968 was HAL nog een Canadese acteur in een sciencefictionfilm. Maar anno 2012 lopen tientallen miljoenen mensen rond met een computer die begrijpt wat ze zeggen en pasklare antwoorden serveert uit een onbegrensd netwerk.

Hoewel spraakherkenning in de zakenwereld al jarenlang in gebruik is, raakt de technologie nu in een stroomversnelling. Smartphones hebben genoeg rekenkracht om zware spraakberekeningen uit te voeren en er zinvolle taken aan te koppelen.

De bekendste verschijning is Siri, de digitale assistent die Apple in 2011 introduceerde op zijn mobiele telefoon. Apple is achter de schermen al bezig aan de ontwikkeling van een Nederlandse versie, getuige de jongste vacatures op de Apple-site.

Ondertussen bouwt Google, waarvan het besturingssysteem Android op een half miljard telefoons staat, aan Voice Search. Die applicatie is sinds kort beschikbaar op de iPhone. Ook andere bedrijven werken aan spraakbesturing in telefoons, televisies, spelcomputers en auto’s.

De spraakherkenningstechniek van Siri komt van het Amerikaanse bedrijf Nuance. In een onopvallend kantoor in Burlington, Massachussets, werkt Vlad Sejnoha, directeur technologie van Nuance. Hij leidt een wereldwijd team van 1.500 onderzoekers die aan wiskundige formules – algoritmes – schaven om spraak om te zetten in betekenis. Daar komen ingewikkelde statistische berekeningen aan te pas. Er zijn overeenkomsten met het scannen van teksten (optical character recognition), Nuances andere specialiteit. Alleen worden bij spraak geen lettertypes maar lettergrepen gescand.

 Sejnoha noemt spraakherkenning ‘de derde revolutie’: “Eerst bedienden we computers met code, daarna in een visuele omgeving met muis en keyboard. Met je stem kun je taken uitvoeren zonder op toetsen te drukken of vensters aan te klikken. Zeg ‘toon me Nikon camera’s op Amazon.com’ en bam! je snijdt dwars door het besturingssysteem heen.”

Dat is de theorie. In praktijk is een pijnlijke fout zo gemaakt; spraakherkenning is nog lang niet geschikt om blindelings mailtjes mee te versturen. Niet voor niets vraagt Siri altijd nog om een bevestiging. Dat heeft te maken met het grote vocabulaire dat consumenten gebruiken, in tegenstelling tot spraakherkenning in zakelijke toepassingen.

Op dit moment verdient Nuance het meest aan de medische sector. Artsen lezen hun consult voor aan de computer, het doktersjargon is vrij beperkt en dat reduceert de kans op fouten. Zekerheidshalve worden woorden waarover de computer twijfelt nog wel door menselijke ogen gecontroleerd.

Voorgelezen krant

Hoe groter de woordenschat die de spraaksoftware moet herkennen, hoe groter de kans op fouten. Zo ontwikkelde de software zich in de afgelopen decennia door het vocabulaire uit te breiden en de foutenratio terug te dringen, onder steeds moeilijker omstandigheden. Voor een computer is het makkelijker om een keurig voorgelezen krant (circa 60.000 woorden) te begrijpen dan spontane conversatie over een vaag thema.

Het Amerikaanse defensie-instituut DARPA stak veel geld in spraakherkenningswedstrijden: het is voor militaire inlichtingsdiensten handig om te weten wat mensen zeggen.

Ook de telecommunicatiesector investeerde fors in spraaktechnologie. Bijvoorbeeld Bell Labs, het onderzoekscentrum van AT&T. Dit Amerikaanse telecombedrijf bespaarde op menselijke telefonistes toen de computer cijfers en ‘ja’ of ‘nee’ leerde herkennen. Voor callcentra en banken bleek dat ook een efficiënte manier om klanten te helpen.

De stap naar massale consumententoepassingen is niet eenvoudig. Telefoongebruikers willen hun vraag in natuurlijke zinnen kunnen stellen: ‘Stuur m’n vrouw een sms’je dat ik om half zeven thuis ben.’

De afgelopen jaren is natural language processing sterk verbeterd, legt Vlad Sejnoha uit. De algoritmes houden rekening met meer grammaticale constructies en context – woorden elders in de zin, opgebouwde woordenschat, kennis van synoniemen en homoniemen, maar ook externe factoren als locatie en tijdstip. Zulke interpretatiemethoden worden ook toegepast in zoekmachines, spellingcontrole of software die de stemming peilt in een stroom Twitter-berichten. Natural language processing is geen onderdeel van traditionele spraakherkenning maar nu snapt de smartphone ook vragen die niet letterlijk gesteld worden. Siri en Google Voice Search presenteren het lokale weerbericht bij de vraag ‘heb ik morgen een paraplu nodig?’

Nuance creëerde rijke databases met akoestische profielen, grammatica en talen. Het gevolg: spraakherkenningssoftware hoeft amper meer getraind te worden, terwijl je vroeger eerst een half uur moest voorlezen.

Als de gebruiker niet hoeft na te denken, dan moet de computer dat des te harder. De nieuwe algoritmes vergen meer geheugen en meer rekenkracht. Maar smartphones hebben nu een snelle chip, voldoende RAM-geheugen en een internetverbinding om extra informatie binnen te halen. Spraakherkenning werkt bij Apple alleen als je online bent. De nieuwste Android-versie kan wel offline dicteren. Maar omdat daarbij een kleinere dataset gebruikt wordt, is de foutenratio iets hoger.

Een paar honderd kilometer onder Burlington, in hartje New York, zit het lab van Google Voice Search, onderdeel van het Android-team. Bij Google hebben ze natural language processing met de paplepel ingegoten gekregen, zegt onderzoeker Pedro Moreno „Dezelfde technologie gebruiken onze collega’s bij Search om te kijken of teksten op webpagina’s relevant zijn: ze zoeken in de context. Dat past bij onze droom van het semantische web.”

Immense rekenkracht

Een simpel voorbeeld van contextuele verschillen: open Googles navigatie-app en zeg: ‘Amsterdam’. Als je in New York bent, krijg je de route naar het stadje Amsterdam, in upstate New York. In Nederland krijg je meteen de route naar de hoofdstad.

Google is de voornaamste concurrent van marktleider Nuance. Er werken zestig onderzoekers verspreid over New York, Mountain View en Londen. Een belangrijke troef is de immense rekenkracht van de Google datacentra waarop algoritmes getest kunnen worden. Vergeleken met concurrenten is Googles spraakherkenning snel – het lijkt bijna live. Google is bezig zijn talenkennis uit te breiden. Pedro Moreno: “We verzamelen stemmen per land. Er zit nu een team in India, een maand daarvoor zaten ze in Oekraïne. Omdat het proces redelijk geautomatiseerd is, kunnen we binnen een week een nieuwe taal toevoegen. ”

Om de foutenratio te verkleinen bouwt Google ook individuele taalprofielen op, legt de Nederlandse onderzoeker Michiel Bacchiani uit. Hij werkt sinds 2005 bij Google en houdt zich al twintig jaar met spraakherkenning bezig. “We bewaren een model van je stem waarin opgeslagen ligt in welke mate je afwijkt van het gemiddelde.” Zo is het makkelijker om stemmen met accenten te interpreteren. Siri doet iets soortgelijks.

Onder goede omstandigheden kan de foutenratio bij Google tot zeven of acht procent dalen, dicht in de buurt van menselijke prestaties. Bacchiani: “Maar het aantal fouten stijgt meteen in lastige situaties, bijvoorbeeld met meerdere sprekers. Of een gesprek in gebroken zinnen, terwijl de hond op de achtergrond blaft.”

Google bewaart het audiomateriaal van gebruikers 18 maanden op de servers om er statistische berekeningen op los te laten. De gegevens zijn geanonimiseerd en niet te herleiden tot individuen of Google-accounts. Er is sowieso te veel aanbod om alles te bewaren, legt Pedro Moreno uit: “Per dag krijgen we zoveel materiaal binnen als een normaal mens in tien jaar zou uitspreken. We gooien het meeste weg.”

Turingtest

En hoe ziet spraakherkenning er over vijf of tien jaar uit? Hebben we een alwetende computer, een HAL 9000, die alles begrijpt wat je zegt? Moreno: “Ik geloof niet in science fiction. Spraakherkenning heeft zich altijd in kleine stapjes verbeterd. Vroeger hadden we ideeën die we niet konden uitproberen omdat we rekenkracht misten; nu hebben we onze neurale netwerken en gooien er duizend computers tegen aan. Totdat we nog slimmere algoritmes bedenken en opnieuw tegen een limiet aanlopen.”

Vooruit, toch een beetje Star Trek dan: beide Google-onderzoekers denken dat spraakbesturing een belangrijke rol kan spelen in Project Glass, de futuristische bril die computerbeelden op je oog projecteert en zonder handen bediend moet worden. De eerste Glasses zijn volgend jaar beschikbaar voor ontwikkelaars.

Ray Kurzweil, grondlegger van Nuance, gaat in zijn boek De singulariteit is nabij (2005) veel verder. Hij stelt dat het computerbrein het menselijke brein zal overtreffen. Uiteindelijk kan dat computerbrein de beroemde Turingtest doorstaan: een mens kan in een gesprek de computer niet onderscheiden van een mens.

Vlad Sejnoha, de technisch directeur van Nuance, is voorzichtig: “Om op een intelligente manier te converseren moet de computer veel meer over je weten, op een veel hoger niveau dan stemmen en algoritmes. Ik zie wel een smartphone voor me met meer sensoren. Die als een persoonlijke digitale assistent je prioriteiten kan wegen en tijdens een vergadering waarschuwt dat je vlucht is geannuleerd. Iemand die je gelukkig maakt, als een echte assistent. Maar het is heel belangrijk dat je die functie ook uit kunt schakelen.”