Data til himmels

  • ikt

Menneskene produserer til sammen mellom en og to exabyte med informasjon årlig. Lagret på 1,4 MB disketter ville denne informasjonsmengden kreve fem stabler disketter herfra og til månen, forteller Peter Lyman ved University of California. Lyman har ledet arbeidet med å tallfeste produksjonen av ny informasjon på verdensbasis. Initiativtaker og oppdragsgiver for prosjektet er datalagringsgiganten ECM.

– Problemet vårt er å finne en måte å forklare for folk hvor mye informasjon en exabyte er. Vanlige mennesker har problemer nok med å holde rede på megabyte og gigabyte. Alt over blir veldig abstrakt, sier Lyman, som er professor og assisterende rektor ved School of Information Management & Systems ved universitetet i Berkeley utenfor San Francisco.

Fire hovedmedier

Det meste av menneskelig informasjon er lagret på et av fire medier: Papir, film, optiske og magnetiske medier. På alle disse områdene finnes det gode data på hvor mye som produseres årlig. Mange av disse datakildene er ikke digitale, men for å få et sammenliknbart bilde, er alt konvertert til digitale ekvivalenter i utbredte formater. Tallene er basert på vanlige komprimerte dataformater. Det betyr at en spillefilm på DVD teller tusendedelen eller mindre i forhold til en ukomprimert versjon av originalen.

Svært mye av informasjonen som skapes, er i praksis duplikater og kopier av annen informasjon. Dette har Lyman justert for slik at det er bare originalkilden som teller. Det betyr at de enorme datamengdene som CD-salget representerer, blir redusert til en dråpe i det store digitalhavet.

Lyman snakker om demokratiseringen av data. Mens det offentlige tidligere stod for de store datamengdene i samfunnet, er det husholdningene som i dag både produserer og lagrer enorme volumer.

Papir og film

Aviser, bøker og tidsskrifter inneholder langt mindre informasjon enn kontordokumentene. Årsproduksjonen av slike dokumenter utgjør 195 TB årlig, mens de rundt én million nye boktitlene hvert år bare trenger 8 TB. All verdens avisjournalister står for 25 TB, mens tidsskrifter, journaler og andre trykksaker utgjør rundt 12 TB. Til sammen, med smått og stort, produserer menneskeheten hvert år 240 TB med informasjon på papir.

Langt mer plasskrevende enn tekst er digitale bilder. Selv om det meste av vår bildeproduksjon ennå er basert på analoge bilder, har Lyman regnet de om til digitale ekvivalenter i PhotoCD-format. Til sammen tar vi 2700 bilder i sekundet året rundt, og det blir ufattelige 410 PB.

De 4250 spillefilmene som lages årlig, blir puslete saker i forhold til dette. De tar bare 16 TB i MPEG-2-format. To milliarder røntgenbilder årlig utgjør 17 PB.

Magnetisk og optisk

I fjor var den totale datamengden lagret på magnetiske disker 1,4 EB. 55 prosent var lagret i PC-er, men 99 prosent av dette er kopiert materiale. De tunge forretningsserverne står for originalinnholdet. Total, original datamengde lagret magnetisk anslås til 280 PB.

VHS-bånd er stort sett bare kopier, men camcordere, som tar hjemmevideo, produserer 300 PB årlig. Vi produserer 250 PB original vitenskapelig informasjon som lagres på bånd, og her spiller nok norske seismiske miljøer en rolle

Selv om vi er vant til å tenke på optisk lagring på CD og DVD i forbindelse med store datamengder, er det ikke mye originalt innhold på denne fronten. Årlig utgis digital musikk på CD tilsvarende 58 TB. Filmer på DVD står for bare 22 TB. Hjemmebrenning av CD-er er stort sett kopiering og teller knapt i regnskapet.

Ikke-lagrede data

Lymans prosjekt har konsentrert seg om den delen av informasjonen som lagres i institusjoner eller individuelt. Mye informasjon kommuniseres, uten systematisk lagring. Noe av dette er digitalt, mens mesteparten er analogt. E-post utgjør over 11 PB årlig fordelt på 610 milliarder e-meldinger, mens den statiske delen av verdensveven i fjor bare var på rundt 21 TB, altså rundt en femhundredel.

Den analoge kommunikasjonen fyller godt opp. Omregnet til digital informasjon utgjør radio og TV rundt 14 PB årlig, bare i USA. Allikevel er det ikke rare greiene sammenliknet med telefonsamtaler, som utgjør hele 576 PB.

Hodene våre

Hvor mye vårt naturlige datalagringsutstyr – hjernen – inneholder, er mildt sagt vanskelig å kvantifisere. Forskeren Tom Landauer har likevel prøvd. Han har funnet at de fleste av våre små grå jobber med å prosessere informasjon, men at noe kapasitet benyttes for å lagre den. Lagringskapasiteten i gjennomsnittshjernen er ifølge Landauer 200 MB. Ganger vi med 6 milliarder mennesker har vi faktisk 1,2 Exabyte i hodene våre, og det er jo et betydelig siffer, og ikke langt unna det menneskeheten produserer av ny informasjon årlig.

Data gruvedrift

Data mining, eller data gruvedrift på norsk, er teknikker som er utviklet for å få tak i den informasjonen man trenger i den enorme mengden av lagrede data.

– Informasjonen i databaser ser ut til å dobles hver 18. måned, og det er en stor utfordring å gjøre slike data om til relevant kunnskap for brukerne, sier dr. ingeniør Torulf Mollestad. Han er førsteamanuensis på Norges teknisk-naturvitenskapelige universitet (NTNU), ved Institutt for datateknikk og informasjonsvitenskap, og ansvarlig for data mining i SAS Institute. Innen kundeoppfølgingssystemer, CRM, som kan inneholde millioner av poster, brukes slik teknologi for å ekstrahere viktige sammenhenger. Innenfor medisin og spesielt genetiske data, eksempelvis i det store genomprosjektet som kartla alle de menneskelige gener, var data mining et viktig verktøy. Teknikken får også stadig større betydning ved analyse av weblogger og i multimediedatabaser.

Administrerende direktør Per Yngland i EMC Norge tror datalagring blir den viktigste komponenten for mange bedrifters IT-strategi. En undersøkelse fra Gartner Dataquest viser at lagring og gjenfinning av stadig større informasjonsvolumer blir viktiger