Talegjenkjenning skal bli bedre

Tjenester hvor brukeren styrer systemet med tale begynner å komme i bruk. Sivilingeniør Ingunn Amdal (37) fra Trondheim har gjort dette til tema for doktoravhandlingen sin ved Norges teknisk-naturvitenskapelige universitet NTNU.

Talebaserte tjenester er foreløpig enten begrenset til én bruker eller til et sterkt begrenset vokabular. For å få systemer basert på automatisk talegjenkjenning mest mulig brukervennlige, er det viktig å kunne håndtere variasjon mellom talerne.

Brukervennlige systemer kan vi blant annet oppnå ved å legge færrest mulig restriksjoner på brukerne, og det vil sannsynligvis gi flere uttaleformer som talegjenkjenneren må håndtere.

Artikkelen fortsetter etter annonsen

annonsørinnhold

– Spennende å jobbe med løsninger som har en direkte og målbar effekt på miljøet

En automatisk talegjenkjenner består av flere moduler. De fleste delene blir optimalisert på relevante data for tale og språk, men uttaleleksikonet er som oftest basert på kunnskap og inneholder én eller kun få uttaleformer per ord.

For mange uttalevarianter vil øke sannsynligheten for å forveksle ulike ord; det er derfor viktig med et godt mål for å velge hvilke uttaleformer vi skal bruke. Amdal har sett på metoder for å optimalisere uttaleleksikonet fra taledata med en såkalt «maximum likelihood»-metrikk. Med dette kan vi finne uttaleformer som gir best ytelse for talegjenkjenneren.

Et av problemene med å bruke taledata til å finne uttaleformer, er at vi aldri vil ha nok data til å modellere alle de forskjellige ordene som kan forekomme. Amdal har derfor sett på metoder for å finne regler som kan generalisere uttalevariasjon i ett datasett til nye datasett med et annet vokabular.

Dagens talegjenkjennere har dårlig ytelse for blant annet spontan tale og aksenter, for eksempel dialekter og fremmedspråklig tale. Noe av årsaken til dette er at et standard uttaleleksikon ikke inneholder uttaleformer som tar hensyn til den variasjonen slik tale inneholder.

Ved å la systemet lære uttaleregler fra taledata, kan vi finne de uttaleformene som virkelig brukes. Ved å bruke objektive kriterier i utvelgelsen, kan vi finne de uttaleformene som gir best ytelse.

Avhandlingen har tittelen «Learning pronunciation variation - A data-driven approach to rule-based lexicon adaptation for automatic speech recognition / Modellering av uttalevariasjon for automatisk talegjenkjenning - En datadreven metode for regelbasert adapsjon av uttaleleksika».

Arbeidet er utført ved Institutt for teleteknikk, NTNU, med professor Torbjørn Svendsen som hovedveileder og førsteamanuensis Magne Hallstein Johnsen som medveileder. Arbeidet er finansiert av Norges forskningsråd og Telenor FoU.

Ingunn Amdal er sivilingeniør (1989) fra Fakultet for elektro- og datateknikk, Norges tekniske høgskole. Hun er ansatt som forsker ved Telenor Forskning og Utvikling.

Disputas: 29. oktober.