Skal gjenkjenne alle språk

Norske forskere kan revolusjonere automatisk talegjenkjenning.

TALEGJENKJENNING: Apple har gjort talegjenkjenning til allemannseie. Nå vil norske forskere ta teknologien et skritt videre. Bilde: Aas, Erlend

Norunn K. Torheim, VERDIKTNorunn K. Torheim, VERDIKT

24. juni 2012 - 13:22

AUTOMATISK TALEGJENKJENNING

Prosjektet «Spoken Information Retrieval by Knowledge Utilization in Statistical speech processing – SIRKUS» har hatt støtte fra VERDIKT fra 1.9.2006 til 31.12.2011.
Prosjektleder: Torbjørn Svendsen ved Institutt for elektronikk og telekommunikasjon ved Norges teknisk-naturvitenskapelige universitet (NTNU).

Ny teknologi som gjør at datamaskiner gjenkjenner alle språk uten at de må lære hvert språk først, kan revolusjonere automatisk talegjenkjenning.

Dersom maskiner blir bedre til å gjenkjenne det vi sier, kan vi diktere maskinen istedenfor å bruke tastatur.

Teknologien kan også brukes til å søke i lydarkiv, noe det er et økende behov for etter som bruken av lydfiler og film på internett, øker.

Talegjenkjenning er vanskelig fordi vi uttrykker oss annerledes muntlig enn skriftlig.

I tillegg kan det være store variasjoner fra person til person blant annet på grunn av ulike dialekter.

Forskere har jobbet med automatisk talegjenkjenning (automatic speech recognition – ASR) i femti år.

Les også: Slik skjuler du dine internettspor

Gjør mer feil enn mennesker

– Det har skjedd en enorm utvikling innenfor talegjenkjenning i løpet av denne perioden, først og fremst på grunn av at vi har fått mer taledata til å trene opp maskinen med og kraftigere maskiner, forteller professor Torbjørn Svendsen ved NTNU.

Svendsen viser til iPhone-appen Siri, som gjør at vi kan bruke stemmen og stille spørsmål til mobilen på samme måte som til et menneske, uten å være avhengig av streng syntaks og stil.

For eksempel vil spørsmålet «The weather tomorrow?» gi opplysninger om morgendagens vær der du er. Et «dummere» system ville ha krevd en spørsmålsstilling som «What is the weather forecast for Trondheim tomorrow?».

Det som gjør Siri så enkel å bruke, er ifølge Svendsen at det ligger en mengde intelligent programmering bak.

– Nå ser vi imidlertid at forbedringene begynner å stoppe opp, og på så godt som alle områder gjør maskiner ti ganger så mange feil som mennesker. Derfor har vi sett etter alternative måter å løse problemet på, forteller Svendsen.

Les også: Siri fikser ikke ingeniørenes spørsmål

Produserer lyd likt

Sammen med forskerkolleger har Svendsen i et prosjekt støttet av Forskningsrådet program VERDIKT, testet ut en helt ny tilnærming for å utvikle neste generasjons talegjenkjenningsteknologi.

De har vist at den grunnleggende måten å produsere tale på er lik for alle språk. Derfor vil deres teknologi kunne brukes for alle språk uten at talegjenkjenneren må læres opp med taledata fra hvert enkelt språk slik de må i dag.

Forskerne har tatt utgangspunkt i fonetikken, det vil si læren om hvordan tale og lyd produseres.

I tillegg har de gitt systemet mer kunnskap om tale og språk, som sammenhengen mellom lydfrekvens og ord og hvordan vi setter sammen ord til setninger.

Når vi snakker, er det taleorganet som produserer lyden. Måten vi bruker leppene, tungen, kjeven og stemmebåndet på, bestemmer hvilke lyder vi lager. Ved å identifisere hvilke produksjonstrekk som er til stede, kan vi gjenkjenne hva som sies.

– Vi får datamaskinen til å finne ut hvilke deler av taleorganet som er i aktivitet ut fra analyse av den akustiske trykkbølgen som fanges av mikrofonen, forteller Svendsen.

Les også: Her er verdens kraftigste datamaskin

To tidligere tilnærminger

Det har hittil vært vanlig å lage talegjenkjenningssystem med to ulike tilnærminger. Begge baserer seg på bruk av en mengde taledata og tekst for å lære datamaskinen å gjenkjenne ulike språk.

Den ene tilnærmingen er at mennesker observerer ord og lyder og trekker ut regler som de legger inn på datamaskinen. Om en lyd er stemt eller ikke avhenger for eksempel av om stemmebåndet vibrerer.

– Hvis vi for eksempel analyserer et lite utsnitt av tale og finner ut at det er stemt og at talen har resonanstopper ved 750 og 1200 hertz (Hz), er det trolig at lyden er en a. Hvis resonanstoppene ligger ved 350 og 800 Hz er det trolig at lyden er en u, forklarer Svendsen.

Den andre tilnærmingen er å la datamaskinen selv lære av en stor mengde eksempler.

– I en slik statistisk tilnærming er i utgangspunkt alle hendelser like sannsynlige. Etter hvert som maskinlæringen skrider fram, vil hyppig forekommende hendelser få økt sannsynlighet mens sjeldent forekommende hendelser vil få redusert sannsynlighet, sier Svendsen.

– Ved en slik tilnærming kan man benytte mye mer taledata enn når man baserer seg på menneskelige observasjoner, for det er begrenset hvor mye mennesket kan tolke, sier Svendsen.

Les også: Spår harddisker på 150 TB

Klassifiserer lydene

I framtida kan du også bruke tale for å finne det du leter etter. Svendsen og hans kolleger har valgt å legge seg et sted midt imellom disse to tilnærmingene.

– Vi har tro på den statistiske tilnærmingen. Det er imidlertid en viss lovmessighet i hvordan vi snakker i det virkelige liv, sier Svendsen.

De legger inn kunnskapen om dette for å lage regler i maskinlæringen.

Mye variasjon i tale er naturlig på grunn av at vi blant annet har ulik fysiologi, dialekt, utdanning og helsetilstand. Alt dette påvirker stemmen vår og hvordan vi bygger opp setninger. For at maskinen skal forstå tale må den håndtere de vanligste variasjonene i normaltale og språk.

– Vi lager et dataprogram som finner sannsynligheten for om ulike produksjonstrekk slik som om stemmebåndet vibrerer, er til stede eller ikke. På den måten klassifiserer vi lyder, utdyper han.

Les også: De 10 viktigste trendene i 2012

Avslører språk på sekunder

Nå vil Svendsen jobbe videre sammen med internasjonale samarbeidspartnere for å utvikle en språkuavhengig modell som kan brukes for å lage konkurransedyktige talegjenkjenningsprodukter.

– Det vil være både tids- og kostnadsbesparende, ikke minst for små språk som vårt eget. Her i landet har vi råd til å kjøpe oss løsninger som koster litt, men det finnes veldig mange andre språk med bare noen få millioner brukere som vil ha glede av en slik teknologi, sier Svendsen.

Teknologien vil dessuten kunne brukes i tilfeller der man blander språk fordi den trenger bare fra tre til tretti sekunder for å avgjøre hvilket språk det er.

– I Norge blander vi ikke inn så mye andre språk, det er verre i Danmark, men det kan også brukes der man har sitater på originalspråk innimellom. I tillegg kan det være nyttig i etterretningsarbeid for å finne ut hvilket språk en person snakker.

Denne artikkelen er levert av VERDIKT (Kjernekompetanse og verdiskaping i IKT), som er Forskningsrådets store program for IKT-forskning.

Les også:

Fjerner forsinkelser på nettet

Norsk løsning skal gi bedre mobilvideo

Vil spore pasienter med ultralydsender

16 spektakulære cyberangrep

IT Nyhetsbrev

Kommentarer

Du må være innlogget hos Ifrågasätt for å kommentere. Bruk BankID for automatisk oppretting av brukerkonto. Du kan kommentere under fullt navn eller med kallenavn.

Se flere jobber

Tre jobbtilbud 10 måneder før masteravslutning!

Les mer