De makers van Siri en Google Voice Search

Illustratie: NRC/ Roland Blokhuizen

Wat voor weer is het in Londen? Hoe kom ik het snelst naar huis? Hoe hoog wordt het nieuwe One World Trade Center? Met spraakherkenning verandert de smartphone in een assistent die – bijna – alles begrijpt wat je zegt.

De meest bekende variant is Siri, de digitale assistent die Apple in 2011 introduceerde op zijn mobiele telefoon. Apple is achter de schermen al bezig aan de ontwikkeling van een Nederlandse versie, getuige de jongste vacatures op de Apple-siteJoin the team responsible for delivering Siri in different parts of the world for an exciting 6 month internship in Cupertino, California.

Maar ondertussen bouwt Google, waarvan het besturingssysteem Android op een half miljard telefoons staat, aan Voice Search. Die applicatie is nu beschikbaar op de iPhone en maakt indruk door zijn supersnelle omzetting van spraak naar tekst. Ook andere bedrijven, Microsoft voorop, werken aan spraakbesturing in telefoons, televisies, spelcomputers en auto’s. Onlangs demonstreerde Microsoft spraaktechnologie die rechtstreeks gesproken Engels vertaalde in gesproken Chinees, op basis van je eigen stemgeluid. Ondertussen bouwen Nederlandse spraaktechnologen systemen die automatisch tv-programma’s analyseren en stemmen van de gasten van praatprogramma’s herkennen.

Hoe werkt deze technologie ? NRC ging op bezoek bij de experts die de spraakherkenning ontwikkelen bij Google en bij Nuance, dat de spraaktechniek in Apple Siri ontwierp.

Vlad Sejnoha is directeur technologie van Nuance. Hij leidt een wereldwijd team van 1.500 onderzoekers die aan wiskundige formules – algoritmes – schaven om spraak om te zetten in betekenis. Er zijn overeenkomsten met het scannen van teksten (optical character recognition), Nuances andere specialiteit. Alleen worden bij spraak geen lettertypes maar lettergrepen gescand. Sejnoha noemt spraakherkenning ‘de derde revolutie’: “Eerst bedienden we computers met code, daarna in een visuele omgeving met muis en keyboard. Met je stem kun je taken uitvoeren zonder op toetsen te drukken of vensters aan te klikken. Zeg ‘toon me Nikon camera’s op Amazon.com’ en bam! je snijdt dwars door het besturingssysteem heen.”

Google Voice Search gebruikt bij spraakherkenning niet langer aparte computers, maar zet de  rekenkracht van alle datacentra in. De foutenratio is gedaald tot 7 à 8 procent, dichtbij menselijke prestaties. Maar de uitdaging is om ook zo weinig fouten te maken als de omstandigheden voor spraakherkenning een stuk ingewikkelder zijn: herrie, een vaag thema, mensen die hun zinnen niet…   Google bewaart de gesproken audio van gebruikers 18 maanden lang op zijn servers. Ter geruststelling: de gegevens zijn niet te herleiden tot Google accounts of individuen. Bovendien, zegt onderzoeker Pedro Moreno: “Per dag krijgen we zoveel materiaal binnen als een normaal mens in tien jaar zou uitspreken. We gooien het meeste weg.”

Lees hier het volledige artikel  “Mijn telefoon begrijpt me” in de digitale editie van NRC Handelsblad, zaterdag 24 november 2012 (alleen abonnees)

 

 

Op de video’s hieronder: vergelijkende testen van de laatste versie van Siri (met iOS6/iPhone 5) en Google Voice Search (Jelly Bean op Nexus en Galaxy Note II)

 

oudere vergelijkingen: