IKT

Mobilmoro

Ragna Kronstad
16. nov. 2004 - 08:00

Selv om snakkende hoder på mobilen høres ut som en artig og enkel idé, er matematikken bak komplisert.

- Vi har løst et problem som mange av våre konkurrenter sliter med fordi de ikke har kompetanse på kaosteori og fraktaler. Det har vi, smiler Bjørn Carlin, 3D-utvikler i Inovani.

- Vi bruker den kompetansen når vi skal lage små, naturlige hodebevegelser og øyeblunking, utdyper han. Carlin er utdannet siviling. fra NTNU og er ett av tre kloke hoder bak mobilmoroa.

Oppfinneren selv, Skjalg Lepsøy, er dr. ing fra tidligere NTH. Han har skrevet en doktoravhandling om fraktal bildekomprimering.

Det siste hodet i gjengen heter Else Nordhagen. Hun er ansvarlig for programvarearkitekturen og er dr. scient fra Institutt for Informatikk ved Universitetet i Oslo. Hennes avhandling handlet om matematikk for beskrivelse av programvarekomponenter.

- Mens Skjalg har dilla på å få ansikter til å se ekte ut, har jeg dilla på å lage gjenbrukbar programvare for flere medier, sier Nordhagen entusiastisk. Inovanis programvare er fleksibel og kan brukes til video, web eller mobil.

Naturlige ansiktsutrykk

De animerte hodene Inovani har skapt, er programmert til å snakke med menneskestemmer og med tilnærmet naturlige ansiktsuttrykk. Brukeren trenger bare å skrive teksten som skal bli til muntlig tale. Forvandlingen fra tekst til tale skjer raskt.

Dette kan du f.eks. se på web-sidene til Inovani. Her kan du skrive inn en tekst og så trykke på en send-knapp. Dermed aktiveres serveren hos Inovani. Den kombinerer selskapets egen programvare med programvare for syntetiske stemmer. Serveren genererer talen og animasjonen, som så sendes til web-siden og du får se et hode som sier det du skrev.

- Videomeldinger til mobilmarkedet når veldig bredt. Ved siden av person-til-person meldinger kan disse videomeldingene benyttes til kommersiell distribusjon av innhold til flere brukere samtidig, slik som vitser, nyheter og horoskoper, forklarer Carlin.

100 ganger i sekundet

For å få til en så ekte animasjon som mulig, har Inovani brukt spesialutstyr fra Qualisys som de har på Norges Idrettshøgskole. Dette utstyret brukes vanligvis til å studere hvordan utøvere løper, går på ski etc. For å studere naturlige ansiktsbevegelser, fikk Carlin plassert 34 reflekterende markører i ansiktet. Mens han snakket, ble han filmet av seks infrarøde kameraer. Spesialutstyret hentet ut data fra disse videobildene og produserte informasjon om hvordan markørene i ansiktet beveget seg i rommet (3D).

- Ansiktsbevegelsene som ble tatt opp, beskriver 34 posisjoner 100 ganger i sekundet. Dette gir utrolige mengder data. Utfordringen er å koke dette ned til en effektiv matematisk modell som gir oss et mindre datasett slik at vi kan animere hoder i realtid på små maskiner som mobiltelefoner. Vi komprimerer ned til mindre enn en promille av de opprinnelige data, forklarer Nordhagen.

Da Teknisk Ukeblad spør om å få se formelen som ligger til grunn for utregningsmetodene, er det antydning til nervøs latter.

- Det er en forretningshemmelighet!, sier Bjørn Carlin. - Du kan ikke få se formelen som ligger bak utregningsmetodene. Men jeg kan kanskje vise deg en som ligner.

Formelen TU får se viser hvordan man overfører bevegelsene fra de 34 punktene til hele ansiktet på de animerte figurene.

Komprimering

Hele hemmeligheten bak den vellykkede animasjonen ligger i komprimeringen. Oppfinneren Skjalg Lepsøy har sin bakgrunn fra videokomprimering. For doktoravhandlingen sin studerte han bruk av fraktale teknikker for komprimering og sammenlignet disse med tradisjonelle teknikker. Lepsøy fant ut at det ikke var noen fordel å bruke fraktaler for bildekomprimering. Han konkluderte med at for å få bedre komprimering, må man gå bort fra å behandle video som en sekvens av bilder. I stedet bør man beskrive det som skjer i videoen på et mer abstrakt nivå. Dette er ideer som er tatt inn i videostandarden MPEG-4.

Etter doktoravhandlingen fikk Lepsøy stipend fra Forskningsrådet og reiste til et MPEG-4 miljø i Italia. Her fant han store rom for forbedringer i forhold til MPEG-4s taleanimasjon og fikk frihet til å utvikle sine ideer.

Artikkelen fortsetter etter annonsen
annonse
Innovasjon Norge
Trer frem med omstilling som innstilling
Trer frem med omstilling som innstilling

- Inovanis teknologi bygger videre på de teknikkene han utviklet mens han hadde dette stipendet, sier Carlin.



Evergreens

Inovani er blant annet i dialog med folk som lager spill og med selskaper som utvikler språkundervisning .

- En canadisk organisasjon som heter "The World Language Process"( WLP), søker nå om midler for å bruke vår teknologi til et språkkurs i engelsk for kinesere før OL i Beijing i 2008. De snakkende hodene kan konkurrere ut vanlige mennesker i slike språkvideoer fordi man kan oppgradere undervisningsinnholdet uten å være avhengig av de som opprinnelig var med i innspillingen. Denne muligheten kaller WLP "Evergreen", så våre snakkende hoder er Evergreens, skryter Nordhagen. Hun er ekstra stolt over samtalene med aktøren i Kina fordi de som ønsket undervisningsmateriale, har vurdert alle 19 konkurrentene.

- Vi var best på kvalitet og hadde beste kommersielle løsning.

Meningsfylt

- Men tjener dere penger?

- Ikke noe særlig foreløpig. Vi er ferdig med produktutviklingen og skal nå ut på markedet, sier Carlin. Selskapet lever foreløpig på gründernes egne midler. Nordhagen siterer en bankreklame på TV for å forklare hvordan det føles: - Hva har pengene dine gjort for deg i dag? Vi vet virkelig hva de gjør for oss. Dette er morsommere og mer meningsfylt enn f.eks. å ha gourmetkokker på kjøkkenet, sier Nordhagen.

Noe som virkelig tenner gjengen i Inovani, er spørsmålet om fremtiden.

- Vi kan lage en robot som snakker. Programvaren vår kan tilpasses for å styre roboters tale. Hvis noen lager det fysiske, så lager vi det logiske!

Sjekk ut de snakkende hodene på www.inovani.no

Les mer om:
Del
Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.