ChatGPT krever moderering à la Wikipedia

Mens markedet for generativ kunstig intelligens (AI/KI) domineres av teknologigigantene, er det en økende interesse for kunstig intelligens basert på åpne modeller og kildekode fra mindre selskaper, forskningsorganisasjoner og individuelle brukere. Er det mulig for slike små aktører å gå sammen for å utfordre det voksende monopolet og drive utviklingen av generativ kunstig intelligens ved hjelp av demokratiske prinsipper?

Generativ KI er kunstig intelligens som kan generere originalt innhold, som tekst, bilder og musikk. I motsetning til tradisjonelle KI-modeller som er opplært til å gjenkjenne og kategorisere eksisterende data, lærer generativ KI å skape nytt innhold ved å analysere mønstre i store datasett.

Kan oppstå skjevheter

ChatGPT, en «stor språkmodell» utviklet av OpenAI og sponset av Microsoft, er utvilsomt det mest fremtredende eksemplet på generativ KI, mens lignende proprietære tjenester også utvikles av de andre store teknologiselskapene.

Imidlertid har det faktum at disse verktøyene eies av store selskaper, store implikasjoner for bruken og utviklingen. En av de største bekymringene er at systematiske «skjevheter» påvirker innholdet som slike verktøy produserer.

Skjevheter oppstår naturlig på bakgrunn av hvilke data som brukes til å trene KI-modellen, men de kan også innføres med vilje av selskapene på bakgrunn av deres kommersielle og politiske interesser.

Uansett hvilken tilnærming man går for, vil det være viktig å samarbeide for å utvikle et moderasjonssystem som er transparent og rettferdig., mener Erik Johannes Husom (t.v.) og Rustem Dautov, som er forskere i Sintef Digital. Foto: Privat

En annen kilde til skjevheter er at disse verktøyene vanligvis kun trenes på offentlige data fra Internett – og dermed ikke tar hensyn til mer spesifikk og nyansert informasjon som ikke ligger åpent ute. For eksempel, hvis en KI-modell er trent opp på offentlige arkiver for kildekode, vil den verdifulle informasjonen som utveksles i private bedriftsnettverk utebli, selv om disse ofte anses som en mer pålitelig kilde til profesjonell kunnskap enn semi-profesjonelle svar og uformelle diskusjoner på forumer som StackOverflow og Reddit.

De ovennevnte begrensningene kan ha betydelige konsekvenser for korrektheten og rettferdigheten til slike KI-systemer. En mulig løsning er crowdsourcing – en prosess for å skaffe tjenester og innhold ved å be om bidrag fra en stor gruppe mennesker. Når det gjelder store språkmodeller kan man bruke crowdsourcing ved at en mangfoldig gruppe av deltakere bidrar med sine data for å trene en felles KI-modell. Slik kan man fange opp et mangfold av meninger og ekspertise som man ellers ville gått glipp av, og dermed gi et mer omfattende og upartisk syn på et emne enn noen enkeltperson eller organisasjon kan tilby.

Problematisk metode

Å anvende crowdsourcing for å trene store språkmodeller krever imidlertid at organisasjoner og enkeltpersoner som deltar, deler potensielt sensitiv informasjon. Dette er problematisk fra både et sikkerhets- og personvernperspektiv.

Artikkelen fortsetter etter annonsen

annonse

Podcast: AI og autonomi forbedrer drift av industrielle anlegg

En løsning på dette kan være føderert læring – en desentralisert KI-metode som gjør det mulig for flere deltakere å samarbeide om å trene en felles modell. Denne tilnærmingen krever ikke at dataene samles på ett sted, men i stedet trener hver deltaker modellen lokalt på sine egne data. Deretter deles modellen med den sentrale serveren, som aggregerer modellene fra alle deltakerne til én felles modell. Den aggregerte modellen deles deretter med deltakerne.

Dette er positivt for både personvern og sikkerhet, i tillegg til at de samlede beregnings- og lagringsressursene hos deltakerne i større grad kan konkurrere med de enorme ressursene hos teknologigigantene.

Kombinert kan crowdsourcing og føderert læring være verktøy for å utfordre de store selskapenes voksende monopol og bidra til bedre generative KI-modeller, men tilnærmingen har en stor utfordring: Hva om deltakerne med vilje eller utilsiktet bruker feilaktige eller villedende treningsdata?

Wikipedia-prinsippet

I denne sammenhengen blir moderering en kritisk komponent for å kunne sikre etisk og ansvarlig oppførsel hos KI-systemet. I et ideelt scenario vil effektiv implementering av crowdsourcing anta iboende selvmoderering, der mangfoldet og det store antallet deltakere sikrer at skjevheter og feil i individuelle bidrag jevnes ut.

Menneskeheten har imidlertid opplevd mange eksempler der flertallet tok feil. En mulighet er derfor å innføre moderering basert på de demokratiske prinsippene for maktfordeling.

Et slikt eksempel er Wikipedia, som fungerer som et distribuert hierarki med brukervalgte administratorer for å sikre korrekthet og rettferdighet i innholdet fra frivillige bidragsytere. Implementeringen av et lignende automatisert moderasjonssystem for store språkmodeller kan basere seg på opplæring av modeller for å oppdage og fjerne skadelig og støtende innhold.

Uansett hvilken tilnærming man går for, vil det være viktig å samarbeide for å utvikle et moderasjonssystem som er transparent og rettferdig. Dette vil kreve innspill fra et bredt spekter av interessenter, inkludert teknologer, forskere, innholdsskapere og vanlige brukere, samt beslutningstakere og samfunnsorganisasjoner.

Andreas Raftevold, prosjektleder i Flir UAS med Black Hornet 4. Militærdronen er rigget for nye funksjoner i framtiden.

Les også

Militærdrone har fått samme prosessor som telefoner

ChatGPT krever moderering à la Wikipedia

Språkmodeller som ChatGPT krever moderering à la Wikipedia for å kunne sikre etisk og ansvarlig bruk av kunstig intelligens, skriver to Sintef-forskere i denne kronikken.

Kan oppstå skjevheter

Problematisk metode

Wikipedia-prinsippet