IT-medisin knekker biokoder

Moderne molekylærbiologi har fremskaffet kolossale mengder biologiske data. Genbanker med DNA- og proteinsekvenser og andre biodata samler informasjon som langt overgår dagens analysemuligheter.

- Det fins teknologi for å fremskaffe dataene, men teknologi for å effektivt sortere og analysere alle disse dataene har så langt ikke vært tilgjengelig. Tradisjonelle statistiske metoder er svært tidkrevende, og menneskelige ressurser til å utføre slike analyser er mangelvare, sier administrerende direktør Olaf R. Birkeland i Interagon AS

Selskapet han leder, har utviklet en spesialprosessor for mønstergjenkjenning, en såkalt Pattern Matching Chip (PMC), som er i stand til å finne raskt frem i de enorme datamengdene. I dag brukes standardprosessorer for å utføre slike analyser, noe som er svært kostbart, da de er bygd for å kunne håndtere også mange andre oppgaver.

Elektroniske apekatter

Selve analysejobben, som dreier seg om å sammenlikne sifre, er i prinsippet svært enkel, men enormt omfattende. I en moderne mikroprosessor brukes det aller meste av silisiumarealet til nivå 1 og nivå 2 hurtighukommelse for at prosessoren ikke skal måtte vente på data og instruksjoner.

Analysemetodene som Interagon utvikler, har ikke behov for slik hukommelse. Dataene som skal bearbeides, er ikke indeksert, slik de er i for eksempel et websøk, og de trenger bare en prosessor som kan sammenlike en referanseverdi med størrelser som strømmer forbi i raskt tempo. Det betyr at det meste av den avanserte logikken på en generell mikroprosessor, som skal kunne programmeres til å ta seg av alle mulige problemer, er unødvendig. I stedet for hukommelse og et stort instruksjonssett trengs bare en liten, enkel prosessor for å gjøre jobben der alle transistorene benyttes til lineære søk. PC-en trenes opp til å gjenkjenne mønstre som i sin tur kan benyttes på data med ukjente egenskaper.

En slik prosessor finnes ikke på markedet. Derfor har Interagon utviklet den selv.

Ny prosessor

Den egenutviklede prosessoren er selve kjernen i Interagons teknologi, og den gir et helt annet pris/ytelsesforhold enn det som ville være mulig med vanlige prosessorer. Spesialprosessoren har omtrent ti millioner transistorer, men selv om det knapt ville holdt til logikken i en Pentium, er det nok til tusen logiske kjerner for å ta seg av de problemene Interagon jobber med.

Tanken er å montere 16 slike prosessorer på PCI-kort som det er plass til seks-syv av i en PC. Hvert av kortene blir utstyrt med 2 GB RAM for å mate prosessorene med data (128 MB per brikke/dvs. 128x16 per kort).

En vanlig PC som er fylt opp med slike kort, vil ha rundt 100 prosessorer, hver med 1024 logiske kjerner som hver kan sammenlikne en datastrøm med et gitt referansemønster. Det gir en regnekraft til genetiske analyser som selv superdatamaskiner kan se langt etter. Pentiumprosessorens rolle er å kjøre analyseprogrammet og styre jobben til alle spesialprosessorene.

For å teste ut algoritmene i maskinvare har selskapet lagt inn en prototyp av prosessorkonstruksjonen i en FPGA - Field Programmable Gate Array. Det er en "tom" prosessor som kan programmeres til å utføre de samme logiske funksjonene som de endelige prosessorene vil få. Delresultatene fra alle de små prosessorene aggregeres opp til et større totalresultat.

En slik prosessor trenger ikke jobbe med bare ett problem. Hver enkelt brikke kan regne på inntil 64 problemer samtidig - eller flere tusen samtidige problemer i en PC. Trengs det mer datakraft, er det bare å sette opp flere PC-er i klynger.

Raskere enn konkurrenten

Selskapet er nå inne i en demonstrasjonsfase for å overbevise forskere og potensielle kunder i legemiddelindustrien om at den nye teknologien holder stikk. Blant annet har Birkeland og kollegene etterprøvd eksperimenter som har vært publisert i det anerkjente tidsskriftet Nature.

- Vår teknologi gjorde jobben på bare to dager, med like gode eller bedre resultater, forteller Olaf R. Birkeland.

Det konkurrerende Celera Genomics ble i fjor kjent for å ha brukt enorm datakraft for å gjøre ferdig dekodingen av det menneskelige genom. Det amerikanske selskapet skal ha brukt 50 millioner dollar for å bygge opp nok regnekraft.

- Vi får tre ganger mer regnekraft i én av våre PC-er enn det de har for å regne på biologiske problemer, sier Birkeland.

Potensielle kunder

Siden sist høst har Interagons PMC-teknologi vært utprøvd på ulike problemstillinger - diagnostisering av kreftprøver basert på genekspresjonsdata, skille kodende og ikke-kodende gensekvenser og klassifisering av proteiner. Teknologien har vakt oppsikt, og Interagon er i samtale med potensielle kunder i farmasøytisk industri. Målet er å ha første levering klar innen nyttår.

- Interagon er et oppløftende eksempel på at norsk IT-sektor har konkurransedyktig teknologi, sier leder Werner Christie i Bioteknologinemnda. Som tidligere spesialrådgiver for Norges eksportråd i San Francisco var han med å koble Interagon til et amerikansk selskap, Perlegene, som ønsket å teste ut analyseteknologien på sine biologiske data.

- Bioinformatikk er et sentralt element i utviklingen av en bioteknologiindustri i Norge. Interagon er det kanskje beste eksemplet vi har til nå, sier Christie.

Fakta om Interagon AS:

Bioinformatikkselskap etablert i januar 2002. Seks ansatte i Trondheim og Oslo. Utvikler en spesialprosessor for mønstergjenkjenning, Pattern Matching Chip (PMC), med sikte på å utføre automatiske analyser og klassifikasjon av biologiske data. Målgruppen er farmasøytisk industri og medisinsk-/molekylærbiologsk forskning.

Arbeidet startet i en prosjektgruppe i søkemotorselskapet Fast Search & Transfer, og er en av mange ideer som kan føres tilbake til professor Arne Halaas og miljøet ved NTNUs Institutt for datateknikk og informasjonsvitenskap.

Interagon satser på å levere sitt første system innen nyttår. Teknologien kan tenkes brukt også på områder som nettverksovervåkning og geofysikk.

Eiere: Erik Must AS (30%), Alliance Venture (30%), Fast Search & Transfer (25%), ansatte og andre (15%).