Den nyeste rapporten fra Datatilsynet viser utfordringene ved big data og personvern. (Bilde: colourbox.com)

IT-TINGET 2013

De 10 største utfordringene med big data

Kan gå ut over både personvern og ytringsfrihet, ifølge rapport.

Big data

  • Big data refererer til den enorme økningen i tilgang til, og automatiserte bruk av, opplysninger: det refererer til gigantiske mengder digitale data som er kontrollert av selskap, myndigheter og andre store organisasjoner, og som gjøres til gjenstand for omfattende analyse ved bruk av algoritmer.
  • Big data kan bli brukt til å identifisere generelle trender og sammenhenger, men kan også bli benyttet slik at det berører enkeltindivider direkte.

Kilde: Datatilsynet

Ti sentrale personvern-utfordringer knyttet til Big Data:

1. Bruk av data til nye formål: Big Data handler i stor grad om gjenbruk av data. Dette utfordrer personvernprinsippet om formålsbegrensning.

2. Datamaksimalisering: Big data innebærer et nytt syn på data, der data får en verdi i seg selv. Verdien ligger i dataenes fremtidige bruksmuligheter. Et slikt syn på data påvirker virksomhetenes ønske om og motivasjon til å slette data.

3. Mangel på åpenhet: Mangel på åpenhet og informasjon om hvordan data benyttes og sammenstilles kan føre til at vi blir offer for beslutninger vi ikke forstår og ikke har kontroll over.

4. Sammenstilling kan frembringe sensitiv informasjon: En utfordring ved Big Data-analyse er at innsamlede opplysninger som hver for seg ikke er sensitive, gjennom sammenstilling kan gi et sensitivt resultat.

5. Risiko for reidentifisering: En av de virkelig store utfordringene ved Big Data-analyse er risikoen for reidentifisering. Gjennom sammenstilling av data fra flere kilder kan det oppstå risiko for at enkeltindivider kan identifiseres fra i utgangspunktet anonyme datasett.

6. Ubalanse virksomhet – individ: Big Data øker ubalansen mellom de store virksomhetene på den ene side og enkeltindividet på den andre.

7. Feil faktagrunnlag: Det er et viktig personvernprinsipp at beslutninger som får konsekvenser for den enkelte skal være basert på korrekte opplysninger.

8. Datadeterminisme: Utstrakt bruk av automatiserte avgjørelser og prediksjonsanalyse kan befeste eksisterende fordommer og forsterke sosial ekskludering og lagdeling.

9. Nedkjølingseffekt: Hvis alle sporene vi etterlater oss, på Internett og andre steder, blir brukt til stadig nye og for oss ukjente formål, kan dette legge bånd på hvordan vi deltar i samfunnet.

10. ”Ekkokamre”: Med økt personalisering av nettet vil den enkelte i stadig mindre grad bli eksponert for meninger som avviker fra deres egne. Dette vil kunne påvirke rammebetingelsene for offentlig debatt og meningsbryting.

Kilde: Datatilsynet, september 2013

Større bruk av big data og utvanning av sentrale personvernprinsipper kan få uheldige konsekvenser både for personvernet, ytringsfrihetene og vilkårene for meningsbryting.

Slik konkluderer den nye rapporten "Big Data - personvernprinsipper under press" fra Datatilsynet.

– Som å slette penger

– Med big data får data en verdi i seg selv og verdien ligger i dataens fremtidige bruksmuligheter. Den største utfordringen at dette vil påvirke motivasjonen til å slette data. Man kan fort tenke seg at å slette data blir som å slette penger, at innsamlede data må man ta vare på fordi det kan være nyttig senere.

– Det utfordrer et personvernprinsipp om at data skal slettes når formålet er oppnådd, sier seniorrådgiver Catharina Nes i Datatilsynet, som sammen med to kollegaer har laget rapporten.

Les også: Vil vi virkelig at supermarkedet skal vite akkurat hva vi kjøper?

Hente inn samtykke

– Den andre store utfordringen er knyttet til bruk av data til nye formål. Big Data handler i stor grad om gjenbruk av data på jakt etter ny innsikt. Dette utfordrer personvernprinsippet om at data kun skal samles inn til klart angitte formål.  Vår anbefaling er å innhente gyldig samtykke fra de registrerte i forbindelse med bruk av personopplysninger, sier Nes.

Hvis det ikke er mulig er anonymisering av dataene som ønskes samlet og analysert et alternativ.

– Da vil ikke opplysningene lenger være å regne som personopplysninger i rettslig forstand, og behandlingen vil falle utenfor lovens virkeområde, sier Nes.

Ingen mirakelkur

Nes legger til at anonymisering seg selv er ikke en mirakelkur i big data-sammenheng.

En annen viktig utfordring er at big data gjør skillet mellom anonyme og ikke-anonyme opplysninger uklart og ufortsigbart.

– Big data slår benet under tidligere teknikker for anonymiserte data. Når man sammenstiller ulike datasett fra ulike kilder oppstår det en risiko for at i utgangspunktet anonyme opplysninger kan bli reidentifisertert, det vil si at de igjen blir personopplysninger. Det er derfor viktig å gjøre en risikoanalyse og vurdere personvernkonsekvenser så tidlig som mulig i prosessen.

Les også: It-sjefene orker ikke mer printertrøbbel og glemte passord

Et eksempel på reidentifisering fra rapporten:

Netflix annonserte en konkurranse for utviklere med en premie på én million amerikanske dollar.

Målet var at noen skulle utvikle en løsning som ga en forbedring på 10 prosent på deres anbefalingsmodul.

I den forbindelse slapp Netflix et ”treningsdatasett” til de konkurrerende utviklerne som de kunne bruke for å trene sine system.

Med datasettet fulgte en ”disclaimer” (ansvarsfraskrivelse) hvor det stod ”for å beskytte kundenes personvern, har all personlig informasjon som identifiserer den enkelte kunde blitt fjernet og alle kundens ID-er har blitt erstattet med tilfeldig tildelte ID-er.”

Det finnes flere filmvurderingsportaler på Internett, blant annet IMDB. På IMDB kan enkeltpersoner registrere seg og rangere filmer, og stå frem med fullt navn.

Forskerne Narayanan og Shmatikov koblet Netflix sin avidentifiserte treningsdatabase med IMDBs database (basert på datoen for vurdering av en bruker) og klarte på den måten delvis å reidentifisere brukerne i Netflix' treningsdatabase.

Et nettverk vil hjelpe

Datatilsynet anbefaler et nettverk eller organ hvor de som har behov for å anonymisere eller avidentifisere data kan diskutere utfordringer relatert til anonymisering og utveksle erfaringer, i tillegg til at bransjeorganisasjoner setter utfordringene på dagsorden og gir opplæring.

Ifølge rapporten har ikke big data tatt av verken i Norge eller i Europa. Et mulig hinder er personvernlovningen i Europa.

Les også: Dette er big data

Tillit til sine kunder

Nes råder at virksomheter som tar i bruk big data i Norge ivaretar tilliten til sine kunder.

– Det er viktig å være åpen om hvilke dataer man henter inn og hvordan man behandler dem. Det gjelder ikke bare kommersielle aktører, men også myndigheter som tar i bruk big data, som for eksempel politiet.

Rapporten peker på at den enkelte i dag, i henhold til den norske personvernlovgivningen, rett til å få vite innholdet i algoritmer som ligger til grunn for automatiserte avgjørelser som har vesentlig betydning for den enkelte.

Det kan hindre diskriminering og at avgjørelser av betydning for vedkommende blir tatt på feil grunnlag.

Forsterker ubalansen

– Big Data forsterker den økonomiske ubalansen mellom enkeltindividet på den ene siden og de store virksomhetene på den andre. Det er industrien alene som henter ut verdien av våre personopplysninger i, ikke vi som har avgitt dem, heter det i rapporten.

Datatilsynets syn på det er at virksomheter pålegges å gi den registrerte tilgang til alle dataene som virksomheten besitter i et brukervennlig, portabelt og maskinlesbart format.

Kan gjøre hva som helst med dine data

Advokat Jon Wessel-Aas i Bing Hodneland sier det er to store utfordringer ved big data. Selv om Europa har den strengeste personvernlovgivningen i verden, så er ikke vi alene i verden.

Mange av dataene gis frivillig fra Europa til amerikanske selskaper.

– Det er et kjent faktum at personopplysningslovgivningen er mye dårligere i USA sett fra enkeltindividets synspunkt. Vi har ikke restriksjon over amerikanske selskaper. Selv om for eksempel Facebook og Google har vist en vilje til å tilpasse seg lovverket i Europa, så er ikke det nok. Det hjelper ikke hva vi gjør i Europa hvis vi er utenfor Europa, sier Wessel-Aas.

Mister kontroll over sin egen identitet

Den andre utfordringen han trekker frem er at juridisk regulering ikke er nok. Det er opptil hvert enkelt menneske å være bevisst og ta ansvar for egne opplysninger og undersøke hva det betyr å bruke diverse tjenester.

I Europa stilles det ganske strenge krav til hvordan opplysningene skal behandles, og det kreves litt høyere presisjonsnivå.

– Men hvis selskapet operer utenfor Europa, hjelper det lite å lese gjennom regler. Der er det større adgang til å gjøre ting med opplysningene. Det er ofte vagt formulert og de kan egentlig gjøre hva som helst med dine data.

Wessel-Aas anbefaler at man tenker godt gjennom hva man legger igjen av personlige opplysninger.

Du skal tenke at det du gjør blir registrert et eller annet sted av mennesker du ikke vet hvem er. Du vet heller ikke hvem de kan utveksle informasjon med. Det er med andre ord mennesker der ute som kan kjenne deg og dine vaner bedre enn du kjenner deg selv. Du mister kontroll over din egen identitet.

Les også:

– Erna må ta kontroll over offentlig IT

Dette er de største IT-truslene nå

– Internett er viktigere enn motorveier