Bedrifter og offentlige virksomheter lagrer stadig større mengder med data. Mye av dette må være tilgjengelig i fremtiden, men lagringsformer og filformater endres med ujevne mellomrom.
Hvordan skal vi unngå at kritisk informasjon går tapt fordi det ikke lenger er mulig å lese dataene?
En prosjektgruppe ledet av Det Norske Veritas (DNV) har jobbet med denne problemstillingen i tre år under navnet Longrec (Long term Records Management).
Resultatet er blant annet en sluttrapport i form av en verktøykasse med de grunnleggende redskapene for å sikre data.
Les også: – Verdens største datasenter
Maskinlesbar
– Vi har sett på hvilke utfordringer vi møter på ved langtidslagring av digital informasjon. Det vi først og fremst ser er at virksomhetene må være mer bevisste på at informasjonen som lagres må kunnes leses maskinelt, sier prosjektleder Inger-Mette Gustavsen. Årsaken er at datamengdene er blitt så store at man ikke klarer å holde oversikten manuelt.
Les også: Vi produserer mer data enn vi kan lagre
Ingen kontroll med dataveksten
– Stadig nye lagringsmedier, it-systemer, standard filformater og nye måter å bruke data på fører til at datafangst og driftsrutiner i stor grad må automatiseres. Maskinene gjør derimot kun det vi forteller dem at de skal gjøre. Så vi må ta noen grep for å sikre lesbarhet, være sikre på å finne igjen informasjon og oppfylle lovpålagte krav. Og folk må ha tillit til at dette faktisk er tilfelle. Løsningen er å klassifisere data og sette opp regler som maskinen må forholde seg til, forklarer prosjektlederen.
– Vi snakker om at data blir tatt vare på og blir forstått uansett om både programvare og teknologier endres. Husk at teknologiske endringer lett kan føre til tap av data. Lagringsmedier supporteres i snitt mellom tre og fem år, og bedrifter står derfor overfor et behov for det vi kaller å bevare informasjonstillitt minst hvert femte år, sier prosjektlederen.
Les også: Lager analoge filmer av digitale
Konvertering
Et eksempel på hvordan filformater endrer seg er føringer fra myndighetene. I dag er ”pfd A” standardformatet for lagring av dokumenter som ikke skal endres.
Hvis Riksarkivet kommer med nye føringer i fremtiden, må dataene konverteres til det nye standardformatet.
– Virksomheter får også mer og mer uleselige filformater, og faren er at det ikke oppdages før man trenger informasjonen. Da kan det være for sent, sier Gustavsen. En rekke filformater vil bli mer sammensatte, med både lyd, bilde, tekst og makroer. Dette gjør at en virksomhet stadig oftere kan stå overfor tilfeller hvor man ikke kan lese og forstå informasjonen når man trenger den.
Hovedutfordringene er å konvertere data til nye formater og flytte data over på nye lagringsmedier.
– Her anbefaler vi at disse prosessene kjøres parallelt, sier prosjektlederen.
For å få til maskinell lesbarhet, må dataene utstyres med metadata (data om dataene) og masterdata (som et kunde- eller organisasjonsnummer) for at de skal kunne identifiseres uavhengig av filformat.
– Folkelig fremstilt må vi sørge for at filene inneholder informasjon om hvordan informasjonen skal leses, sier Gustavsen.
Kostbart
Her er det vesentlig ikke å ta seg vann over hodet. Ikke all informasjon skal bevares for ettertiden.
Les også: Hele Medie-Norge på harddisk
– Eksempelvis bør regnskapstall lagres trygt over en tiårs periode, mens andre data er langt mindre viktig for en virksomhet. Forvaltning av data blir bare dyrere og dyrere, så virksomheten må foreta en kartlegging av sitt eget behov, påpeker prosjektlederen.
Prosjektet til 27 millioner kroner er avsluttet, men følges opp med blant annet flere doktorgradsarbeider.
Redder offshore-data
Statoil har for alvor fått øynene opp for langvarig sikring av informasjon.
– Vi har ufattelig mye data som skal bevares over lang tid, og vi er ikke i havn med et system for dette, sier fagleder Rune Espelid. Han har ansvaret for informasjonsforvaltning hos Statoil og legger ikke skjul på at Longrec har avdekket svakheter i dagens rutiner. Selskapet har deltatt i prosjektet for å lære og bidra med egne erfaringer.
Les også: All datafangst på ett brett
– Dette prosjektet treffer oss fordi vi har informasjon som skal oppbevares og brukes over lang tid, sier Espelid.
Det dreier seg om data om konstruksjoner og prosjektinformasjon knyttet til utvikling og drift av felt. Når dette skal flyttes over på nye lagringsmedier eller nye systemer, byr det ikke sjelden på problemer.
– Kvaliteten på data forringes nesten uansett. Det er mange som ikke tenker på at sletting av masterdata betyr at man sletter koblingen til mye informasjon. Også hos oss fører det til at folk ikke finner det man leter etter, medgir faglederen.
– Her er det ofte volumer på mange terabyte som skal migreres eller konverteres, og her må vi ha kontrollmekanismer som sikrer at informasjonen kan finnes igjen og bli forstått i fremtiden. Vi er underveis, men ikke i havn med rutinene. Longrec-prosjektet har hjulpet til å sette fingeren på en rekke problemstillinger, sier Espelid.
Les også: Høy lyd tar knekken på harddisken