Nye modeller for talegjenkjenning

Arbeidet omhandler nye modeller for tale basert på teorien for ikke-lineære dynamiske systemer. Modellene er anvendt innen talegjenkjenning med tanke på å lage mer effektive og kompakte systemer.

Selv om dagens talegjenkjenningssystemer fungerer overraskende bra med hensyn til ordfeilrate, gir de klart dårligere ytelse enn mennesker, spesielt under realistiske forhold, som i støyende omgivelser. Videre bruker dagens systemer modeller som både er overforenklet og mistilpasset relativt til talens natur. Disse systemene trenger derfor svært mange parametre for å kompensere for dette.

Ikke-lineære dynamiske systemer er kraftigere modeller som gir en bedre beskrivelse av talen, og derfor kan føre til bedre talegjenkjenningssystemer. Utgangspunktet til utvikling av et slikt talegjenkjenningssystem er en struktur kalt Chained Dynamical System Model (CDSM), som blir foreslått for å beskrive menneskets produksjon av tale.

Denne modellen kan beskrive de fleste viktige egenskaper til talesignalet, som ikke-lineæritet, ikke-stasjonæritet og dynamisk natur. Siden talegjenkjenning kan betraktes som den inverse prosessen til taleproduksjon, ble CDSM invertert for å bruke det som en talegjenkjenner.

For å utvikle denne inverse modellen, Inverted Chained Dynamical System Model (ICDSM), ble populære teknikker i teorien for ikke-lineære dynamiske systemer benyttet. Metoder ble utviklet for å trene ICDSM på tilgjengelige taledata, og bruke det som en gjenkjenner for både ren og støyende tale med mulighet for å tilpasse til den aktuelle taler.

Avhandlingen har tittelen Ikke-lineære dynamiske systemer for automatisk talegjenkjenning . Den er utført ved Institutt for teleteknikk, NTNU, med førsteamanuensis Magne Hallstein Johnsen som veileder. Arbeidet er utført med støtte fra Institutt for teleteknikk og Norges forskningsråd.