Slik kan datamaskinene snakke og forstå tale

Steven Hawking kunne i dag ha fått en stemme som var nesten perfekt, men han har valgt å beholde den snart 30 år gamle syntetiske stemmen fordi alle forbinder den med ham. Bilde: Horst Friedrichs

Odd Richard Valmot– Journalist

10. mars 2013 - 09:47

Talegjenkjenning og talesyntese

Når en datamaskin skal oversette tale til tekst, enten den skal brukes til diktering, eller til å representere mening, må den gjøre en frekvensanalyse.
Den analoge lyden fra mikrofonene må brytes opp i enkeltlyder som ordene består av. Det er ikke alltid like enkelt.
En f er en høyfrekvent hveselyd i området over 3000 Hz. Det samme er en s. At de kan være vanskelige å skille fra hverandre vet alle som har snakket i en mobiltelefon hvor talekodeken begrenser frekvensområdet til 3400 Hz.
Vokalene er enklere. De er stemte lyder på lavere frekvenser med resonanser på ulike frekvenser.
Dataprogrammet setter sammen det den identifiserer som bokstaver til ord, men det er heller ikke alltid lett. Det kan være vanskelig å skille på grensen mellom ordene, eller på bokstaveringen av enkeltord.
Da må den lage ulike hypoteser for meningen i setningen for å skille ut enkeltordene. For eksempel kan det være vanskelig å skille på hat og hatt. Om det er lang eller kort A kan bli for utydelig, men satt inn i en setning blir det som regel klart om det er harme eller et hodeplagg.

Siden datamaskinenes barndom, har det vært et mål å få dem til å forstå mennesker på samme måte som vi omgås hverandre.

I starten trodde man det var lett. Språk var jo bare lydbølger som varierte i frekvens og amplitude, så man bare kunne plukke ut ordene fra slike mønstre. Det kunne vel ikke by på problemer? Men det kunne det.

Desto mer man analyserte talesignalene, jo mer innsikt fikk man i hvor ulikt folk uttalte ord og setninger. Ulike språk – og et enormt antall dialekter – gjorde ikke saken bedre.

Les også: Språkteknologi kan spare to milliarder trygdekroner

Å snakke og å forstå

Vi mennesker skiller ikke mellom det å snakke og det å forstå. Det flyter sammen. Men slik er det ikke for en datamaskin: Den kan godt snakke i vei uten å forstå noe som helst, og den kan forstå uten å kunne snakke.

Det er to helt ulike programmer som ligger bak slike anvendelser, derfor skiller vi mellom talesyntese og talegjenkjenning.

Det enkleste er å få en datamaskin til å snakke. Det har vi gjort i mange tiår. Et typisk eksempel er stemmen til Steven Hawking. I dag kunne han fått en stemme som var nesten perfekt, men han har valgt å beholde den snart 30 år gamle syntetiske stemmen fordi alle forbinder den med ham.

Dagens syntetiske tale er typisk basert på en stemmedonor som har lest inn et stort antall setninger. Ut fra disse plukker man ut stavelser, signalrepresentasjoner, og det er disse som settes sammen til ord.

Etter hvert som lagringskapasiteten til datamaskiner har økt, har man ikke det samme behovet for å spare plass. Derfor lagrer man nå opptak av vanlige ordsammenstillinger for å unngå skjøteproblemet som kan få den syntetiske talen til å lyde litt stakkato.

I talesyntese må alle ordene i ordboken først gjøres om til lydskrift. Eksempler på lydskrift finner vi i en norsk-engelsk ordbok. Den forteller hvordan ordet uttales på engelsk.

På norsk er bokmålsordboken på rundt 60 000 ord, mens nynorskvarianten har rundt 90 000 ord. I tillegg kommer bøyninger.

Les også: Denne 3D-printeren kan du ha hjemme

Stemmeprøver

Utfordringen vokser når man dikterer til en datamaskin. Ikke bare må programmet forstå ordene som uttales, det må også forstå dialekter, gebrokken uttale og litt talefeil.

For å trene opp en talegjenkjenner brukes et stort antall stemmeprøver. Ofte leser tusen ulike mennesker inn ord og setninger for å få et stort nok statistisk grunnlag til å håndtere alle variasjonene i språket.

Det er to forskjellige anvendelser av talegjenkjenning. Den ene er beregnet på diktering av tekst rett inn på en skjerm. Den andre er taleforståelse.

Diktering

Når man skal diktere til en datamaskin, må den oppfatte alt som sies slik at den kan gjengi hvert ord.

Jo mer oppgaven kan avgrenses, jo enklere blir det å lage et program som kan tolke talesignalene og gjøre det om til tekst.

Det gjør også at slike anvendelser har sett dagens lys først. Når en radiolog dikterer inn sin tolkning av et røntgen- eller MR-bilde, kan det aller meste av språket kuttes ut, og det hele innsnevres til et lite område.

Det som kan høres ut som kaudervelsk norsk/latinsk, er i virkeligheten lett å tolke for en datamaskin sammenliknet med dagligtale.

Systemet trenger ikke å vite noe om verken lakselus, ballettrinn eller Petter Northug. Bare om anatomi og de ordene som trengs for å skape mening i det. Talegjenkjenning er mye brukt i forskjellige medisinske fagområder for å diktere inn epikriser.

Les også: Nå kan du glemme PIN-koden

Taleforståelse

Det beste eksemplet på taleforståelse er Siri på Iphone og Googles stemmesøk på Android.

Her må datasystemet forstå spørsmålet for å kunne finne riktig svar. Derfor er kravet til at systemet oppfatter alle ordene helt korrekt ikke så stort som ved diktering, men systemet må forstå hva du spør om. Slike spørresystemer har et tale-til-tekst-system i front som gir grunnlag for spørringen inn i flere ulike kunnskapsdatabaser.

Typisk spør Apples Siri videre til Google, Yelp, Wolfram Alpha, Yahoo og Wikipedia og så sammenstilles svaret til det som gir høyest statistisk relevans i forhold til hvordan spørsmålet tolkes.

Googles system fungerer ganske godt på norsk, og det betyr at de har bygget en norsk modul for talegjenkjenning. I motsetning til Apple vises oppslag på Google, mens Apples Siri kan svare, om ikke på norsk. Begge finner adresser i kart.

Men selv de beste datasystemer, kan ikke forstå alt. Det gjør jo ikke mennesker heller. Hvis du sier: Kan du lukke døra? og datamaskinen ikke er sikker, må den spørre: Mener du at jeg skal lukke den døra der? Er det korrekt, svarer du ja, akkurat som til et menneske.

Det mest avanserte spørresystemet som eksisterer er IBMs Watson-system, selv om det ikke baseres på tale ennå, men på skriftlige spørsmål. Fremtidige versjoner vil kunne ha en talemodul i front.

Les også: Apple kan få fart på norsk sensorteknologi

Enorm nytteverdi

Talegjenkjenning har potensielt enorm nytteverdi. Folk som har vanskeligheter med å bruke tastatur peker seg ut som de som får mest glede av teknologien, men i svært mange situasjoner har vi alle glede av å snakke uten å taste.

Samsung har allerede bygget en meget enkel talegjenkjenning inn i sine nye tv-er, men her er det mye å gå på. Biler er et annet eksempel der flere varianter av teknologien kan utnyttes. Du kan få lest opp e-post og meldinger og diktere nye tilbake. Eller spørre etter adresser og telefonnumre.

Og mobiltelefoner er det for de fleste enklere å snakke til enn å taste på.

Hovedkilde: Dr. ing. i Telenor Research and Future Studies, Knut Kvale.

Les også:

Opera kommer med ny nettleser til mobilen

40 år gammel teknologi mest populær

Lover 25 ganger raskere trådløst nett

IT Nyhetsbrev

Kommentarer

Du må være innlogget hos Ifrågasätt for å kommentere. Bruk BankID for automatisk oppretting av brukerkonto. Du kan kommentere under fullt navn eller med kallenavn.

Se flere jobber

Hvordan lage en stillingsannonse på Tekjobb?

Les mer

Senior IT-administrator

Administrerende direktør

Kvalitetsleder

Product Follow Up Specialist

En tjeneste fra