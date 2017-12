I 1997 slo den IBM-utviklede superdatamaskinen Deep Blue verdensmester Garri Kasparov i sjakk. Det ble et bevis på at datakraft kunne overgå selv den beste menneskelige sjakkspiller. Siden er det utviklet flere motorer beregnet på sjakkspill og -analyse.

En av disse er Stockfish. Det delvis norskutviklede programmet har i mange år vært rangert som en av de aller beste sjakkmotorene, og vant senest i fjor det uoffisielle verdensmesterskapet for sjakkmotorer (TCEC).

Nå har Stockfish målt krefter mot den selvlærende, Google-utviklede algoritmen AlphaZero. Resultatet? Av totalt 100 partier, vant AlphaZero 28. 72 av partiene endte i remis. Googles algoritme kom seg altså ubeseiret gjennom alle partiene.

Resultatet er i seg selv interessant, men det blir desto mer oppsiktsvekkende når man ser nærmere på teknologiene de to datamaskinene bygger på.

Mens Stockfish styres av tusenvis av regler utviklet av mennesker, har AlphaZero lært seg opp helt selv ved hjelp av maskinlæring.

Google-algoritmen ble kun matet med sjakkspillets regler. Deretter ble AlphaZero satt til å spille mot seg selv. Dette gjorde den ved hjelp av Monte Carlo-metoden, som utforsket potensielle trekk tilfeldig.

Hvert trekk lærte nodene i det nevrale nettverket mer om hva som er den beste måten å spille på. Nodene justerte seg etter dette.

Etter fire timer, eller 300.000 trekk, presterte AlphaZero bedre enn Stockfish. De 100 omtalte partiene startet etter at AlphaZero hadde gjennomført 700.000 øvelsestrekk. Denne engelskspråklige, lesverdige rapporten beskriver eksperimentet i ytterligere detalj.

Stockfish fungerer på en litt annen måte.

Den evaluerer hvor gode de ulike posisjonene er basert på en rekke regler utviklet av mennesker. Et eksempel er at løperen liker å ha kontroll på store diagonaler. Disse reglene er finjustert opp gjennom årene etter hvert som utviklerne har sett hva som fungerer og ikke.

AlphaZero

AlphaZero er utviklet av DeepMind, et britisk AI-selskap som eies av Google.

AlphaZero er en mer generelt orientert utgave av algoritmen AlphaGo Zero, som nylig viste seg som verdens beste i brettspillet Go. AlphaZero prøvde seg også i spillene Shogi og nevnte Go. Den slo både det som skal være den beste databaserte Shogi-spilleren (Elmo) og Go (AlphaGo Lee).

I opptreningsfasen hadde AlphaZero tilgang til 5000 førstegenerasjons Tensor prosesseringsenheter (TPU) for å spille mot seg selv, og 64 annengenerasjons TPU-er for å trene det nevrale nettverket. Dette er en type mikrobrikker utviklet av Google for et spesielt bruksområde – i dette tilfellet maskinlæring. I partiene mot Stockfish skal AlphaZero imidlertid kun ha hatt tilgang på én enkel maskin med fire TPU-er. Den kunne dermed analysere 80.000 posisjoner per sekund, mot Stockfish’ 70 millioner.

AlphaZero klarte likevel å slå Stockfish, ettersom den gjør en mer selektiv analyse mot de mest lovende variasjonene.