Brettspillet Go har 10^170 mulige kombinasjoner. Den nye versjonen av AlphaGo har lært seg selv spillet uten noen som helst form for menneskelig hjelp, og er nå udiskutabelt verdens beste Go-spiller.
Brettspillet Go har 10^170 mulige kombinasjoner. Den nye versjonen av AlphaGo har lært seg selv spillet uten noen som helst form for menneskelig hjelp, og er nå udiskutabelt verdens beste Go-spiller. (Bilde: DeepMind)

AlphaGo Zero

AlphaGo beviser: Kunstig intelligens blir bedre uten ekspertise fra mennesker

Overgår alle menneskelige eksperter og andre algoritmer.

  • IT

En ny form for selvlærende, kunstig intelligens overgår alle menneskelige eksperter og andre algoritmer i det kompliserte brettspillet Go.

Det samme prinsippet kan også være nyttig innen energiforskning, materialforskning og bioteknologi, tror forskerne fra Google-bedriften DeepMind.

Skal løse problemer 

Forskere og ingeniører fra DeepMind i London, som er eid av Googles moderselskap Alphabet, har utviklet en ny versjon av den Go-spillende algoritmen AlphaGo. Denne er vesentlig bedre enn forgjengeren sin.

DeepMinds administrerende direktør og grunnlegger, Demis Hassabis, forteller at det langsiktige formålet til DeepMind ikke er å utvikle Go-algoritmer, men å oppnå gjennombrudd innen algoritmeutvikling for å løse store problemer i den «virkelige verden», så som folding av proteiner; noe som er relevant for bioteknologi, samt utvikling av nye materialer.

Go-spillet er svært velegnet til å se hvor langt man kan komme med kunstig intelligens, siden spillet er enormt komplisert i forhold til andre brettspill – for eksempel sjakk.

Den nye AlphaGo Zero har etter kort tids trening slått sin forgjenger AlphaGo, som har vunnet over de aller beste menneskelige Go-spillere, med 100-0 i en match over 100 partier.

Starter med blanke ark

Hemmeligheten bak suksessen med AlphaGo Zero er at programmet begynner med det som kalles blanke ark, eller en blank tavle (Tabula Rasa) – derfor tilføyelsen «Zero».

Det innebærer at AlphaGo Zero lærer seg selv å spille Go uten noen som helst hjelp eller rådgivning om taktikk eller strategi i spillet.

De tidligere versjonene av AlphaGo har alle under opplæringen blitt tilført kunnskap om hvordan de beste menneskelige Go-spillerne reagerer i bestemte situasjoner, og blitt fôret med utfallet av en lang rekke spilte partier mellom de beste spillerne.

AlphaGo benytter seg av en ny form for reinforcement learning, hvor programmet blir sin egen lærer.

I utgangspunktet har systemets nevrale nettverk ingen som helst kunnskaper om Go. Deretter spiller programmet mot seg selv ved å kombinere det nevrale nettverket sitt med en effektiv søkealgoritme. I løpet av spillene justeres det nevrale nettverket og oppdateres til å forutsi så vel trekk som den endelige vinneren av spillet.

Slo tidligere versjon på tre dager

I en artikkel i Nature redegjør David Silver fra DeepMind sammen med en lang rekke kolleger for hvordan prinsippet for programmet er under og etter trening.

I motsetning til de tidligere versjonene av AlphaGo, har Zero bare ett nevralt nettverk i stedet for to. Da valgte et policy-nettverk ut neste trekk, og et value-nettverk forutsa hvem som ville bli den endelige vinneren.

Ved å kombinere disse i ett enkelt nettverk, kan AlphaGo Zero lære seg å spille Go mye raskere, heter det fra DeepMind. Nøkkelen for å oppnå dette, er den nye reinforcement learning-algoritmen.

Etter tre dagers trening og spilling av 4,9 millioner partier mot seg selv, var AlphaGo Zero på samme nivå som AlphaGo Lee, etter at den hadde hadde blitt trent i månedsvis og spilt 30 millioner partier.

Det interne AlphaGo-mesterskapet

Etter opplæringen deltok AlphaGo Zero i en intern konkurranse med tre andre Alpha Go-versjoner: AlphaGo Fan, som i 2015 beseiret europamesteren Fan Hui; AlphaGo Lee, som i fjor vant over toppspilleren Lee Sedol; og AlphaGo Master, som i år har beseiret alle de sterkeste toppspillerne 60-0 i en rekke online-partier.

Både Alpha Go Zero og Alpha Go Master kjøres på én enkelt maskin med fire tensor-prosessorer (TPU), mens AlphaGo Fan og AlphaGo Lee kjøres på flere maskiner med sammenlagt henholdsvis 176 grafikkprosessorer og 48 tensor-prosessorer.

I kamper på over 100 partier vant AlphaGo Zero over AlphaGo Lee med 100-0, og 89-11 over AlphaGo Master. Hvert program hadde fem sekunder på å beregne det neste trekket.

Verdens beste menneskelige Go-spiller har i dag en Elo-rating på 3664.

AlphaGo Lee ligger på 3739, AlphaGo Master på 4858 og AlphaGo Zero på imponerende 5185.

Mennesker fremdeles overlegne på andre områder

Satinder Singh fra University of Michigan fremhever i en kommentar i Nature at det nå er bevist at kunstig intelligens basert på reinforcement learning, kan prestere bedre enn systemer som bare er basert på menneskelig ekspertise.

Han understreker likevel at AlphaGo Zero – som alle de andre av de mest imponerende eksempler på kunstig intelligens som vi har sett – har en svært begrenset kunnskaps- og operasjonsområde sammenlignet med mennesker, og for den saks skyld dyr.

Singh tilføyer at AlphaGo Zero utvilsomt vil kunne brukes av de beste Go-spillere for å forbedre spillet sitt, og i det hele tatt oppnå bedre innsikt i spillet.

Prinsippet kan også være nyttig innenfor andre områder, slik forskerne fra DeepMind påpeker.

Se og hør DeepMinds egen presentasjon

I denne to-minutters videoen produsert av DeepMind, forteller David Silver om AlphaGo Zero og perspektivene om å benytte det samme prinsippet for å løse interessante vitenskapelige problemer innen andre områder.

Artikkelen ble opprinnelig publisert på Ing.dk.

Kommentarer (1)

Kommentarer (1)