Tale er gull

  • ikt

Talespråket er den naturlige måten mennesker kommuniserer med hverandre på. Det er nå på vei inn i PC-en og mobiltelefonen.

Om noen år vil også huset forstå deg, og spørre om det er OK at det senker varmen i stua til helgen, nå som du har tenkt å reise bort. Reisen dikterte du jo nettopp inn i kalenderen.

Det som til nå har vært science fiction, blir mer virkelighet. Men i motsetning til datamaskinen HAL 9000 i filmen 2001 - en romodyssé , kommer ikke huset ditt til å overta makten. Taleteknologien vil være din dataslave, med et svært menneskelig grensesnitt, og du kan velge kjønn selv.

IBMs nordiske salgssjef for taleteknologi Geir Nøklebye tror ikke det er så lenge til vi kan kvitte oss med tastaturet til fordel for mikrofoner og høyttalere. I engelsktalende land er mye taleteknologi allerede i daglig bruk. Nå blir den tilgjengelig også i Skandinavia.

Hard nøtt

Taleteknologien har møtt mange flere vansker enn fremtidsforskerne på 50- og 6- tallet forutså. Hjernen prosesserer sensorinntrykk fra tale på en svært mye mer kompleks måte enn datamaskiner som mottar tastetrykk. Muntlig språk er svært upresist når vi skal kommunisere med noe så uintelligent som en PC. Vi mennesker har ulike dialekter, stemmene er høyst forskjellige, vi snakker i ufullstendige setninger, og vi roter med grammatikken.

Men teknologien er i ferd med å modnes. Flere tiår med forskning gir nå resultater og avanserte språkmodeller og programvare gjør at stemmen kan gi tastaturet konkurranse.

Norsk initiativ

Viktige deler av språkteknologien som nå blir produkter, er utviklet av Nordisk Språkteknologi (NST) på Voss i samarbeid med IBM. NST ble startet av Rune Relling med bakgrunn fra Aschehoug og Apple Computer og Arne Gilbakken fra Sintef. I 1997 startet de to selskapet som skulle koble humaniora og matematikk sammen til språkteknologi. De fikk god faglig hjelp av Kolbjørn Heggstad fra Universitetet i Bergen som er en nestor på dette området i Skandinavia.

For tre år siden gikk NSTs teknologipartner Lernaut & Hauspie i Belgia overende etter uregelmessig regnskapsførsel, og det norske selskapet sto alene. I 2001 inngikk NST en avtale med IBM som har jobbet med språkteknologi i over 30 år. Alt materialet NST har samlet inn, åpner for at de skandinaviske språkene får tilgang til denne teknologien.

Til i dag har selskapet brukt over 100 årsverk til å samle inn tekst og stemmeprøver på norsk, svensk og dansk. Det er disse språkressursene som er grunnlaget for utviklingen av skandinaviske språkmodeller for å kunne bygge talestyrte løsninger.

Tekst til tale

De nye datastemmene på norsk, svensk og dansk som NST har laget med IBMs teknologi for talesyntese, er svært lik en menneskelig stemme. Den har riktig intonasjon i forhold til uttale av enkeltord og setninger, og er svært ulik den tradisjonelle datastemmen.

Muligheten til å lese opp tekst åpner for løsninger som talende internettsider og talende e-post . Meldings- og beredskapssystemer hvor datastemmen anvendes, er allerede tilgjengelige.

- Etter hvert som mobiltelefoner kan motta e-post, kan syntetisk tale brukes til å lese opp meldinger på SMS og e-post mens du kjører bil, sier Nøklebye.

Kommandosystem

Et av de store markedene som åpner seg for språkteknologien er telefonanvendelser. Det er mulig å avlaste sentralbordet med et talesystem på en måte som knappvalg aldri vil klare. Ringer du et sted der det jobber 200 mennesker, må du enten vite direktenummeret til den du vil snakke med eller få hjelp av sentralbordet. Men den siste muligheten forsvinner vanligvis etter klokken 16. I et talestyrt sentralbord er det nok å si navnet på personen du vil ha tak i, så settes du over. Det er ikke bare eksterne innringere som har glede av slike systemer. Interne samtaler settes like effektivt over.

- Vi har solgt slike systemer til Voss kommune, Flextronic og Norwegian Brookers. De er meget effektive, men selvfølgelig er det noen dette ikke passer for, sier Relling. Dialekter, aksent og uttale kan i enkelte tilfeller by på vansker. På Voss f.eks. er det ikke bare er maskiner som har vansker med å forstå dialekten. Trøsten er at ved to feil blir du satt til et manuelt sentralbord.

Tale til tekst

IBM har allerede språkteknologi som benytter naturlig tale innen et begrenset fagområde som rutetider, kontofoner eller aksjehandel.

Selskapet har levert flere systemer basert på såkalt formell tale med skandinaviske ord. Formell tale er nøye uttalte ord innen et begrenset vokabular. Det kan høres ut som en begrensning, men det åpner store muligheter. Jo mer spesialisert et fagområde er, jo enklere er det å lage et dikteringssystem med høy presisjon.

NST har levert en automatisk dikteringsløsning som gjør at røntgenleger kan diktere journaler direkte til tekst på skjerm. Selv om dette er et språk vanlige mennesker neppe ville skjønne mye av, er det et begrenset vokabular, som gir høy gjenkjennelse. Radiologisystemet har en ordgjenkjenning på over 98 prosent ifølge Relling.

- Potensialet innen helsevesenet for diktering av journaler er stort. Bare i Norge går det med 3500 årsverk i skrivestuer, og her tror jeg det kan ligge an til en revolusjon i produktivitet og raskere produksjon av den enkelte pasients journal og epikrise. Språkteknologi slik som den vi har utviklet for røntgenleger vil raskt vil kunne erstatte mellom 20 og 30 prosent disse årsverkene, sier Relling. Eksempler fra USA viser at det går an å spare opptil 40 prosent.

Også andre store grupper vil ha glede av å kunne diktere til skjerm. Rundt 10 000 av de som er sykmeldt i dag er, klarer ikke å benytte et tastatur. Svært mange av disse kunne ha utført arbeidsoppgaver hvis de hadde fått tilgang til en talestyrt dikteringsløsning.

Skandinavisk Språkressursbank

Et enormt innsamlings- og systematiseringsarbeid ligger til grunn for den nye språkteknologien. Tekstlige, akustiske og leksikalske data danner sammen et bilde av skriftspråket. NST har samlet inn tekstdata på i alt en milliard ord fra ulike kilder på norsk, dansk og svensk. Dette danner grunnlag for en rekke stokastiske modeller. En slik modell består av "trigrammer. Et trigram består av tre etterfølgende ord/grammatiske tegn.

Eks: "Røngten thorax: Klare lunger og frie sinus": 1. røngten thorax: , 2. thorax: klare , 3. :klare lunger. Her vil trigramstatistikken differensiere mellom ":" og "colon" (latin for tykktarm)

Det mest omfattende delen av arbeidet har vært innsamlingen av akustiske data. Til sammen er det samlet inn 6000 timer stemmeprøver fra over 3000 personer. Stemmeopptakene er fordelt på 11 norske, åtte danske og ti svenske dialekter. Alle er tatt opp gjennom både mobiltelefon, telefon og mikrofon for å få hele spekteret fra dårlig til god kvalitet på gjengivelsen. Deretter er stemmeprøvene splittet opp i språkets minste lydlige segmenter (fonemer) samt at en registrerer alle mulige lydoverganger. Dette " fonembiblioteket" blir så koblet til et korresponderende sett av grafisk representasjon (grafem). Det gir grunnlaget for å koble lyd og skrift.

I tillegg anvender forskerne også leksikalske data som ordformer, frekvensordlister, rettskrivningskonvensjoner og annen faktakunnskap om språket og tekstdata for å forstå og lage tale.