Her står AlphaZero (hvit) til vinst i parti 6.
Her står AlphaZero (hvit) til vinst i parti 6. (Skjermdump fra chess.com)

På fire timer slo Googles kunstige intelligens en av verdens beste sjakkmotorer

I 1997 slo den IBM-utviklede superdatamaskinen Deep Blue verdensmester Garri Kasparov i sjakk. Det ble et bevis på at datakraft kunne overgå selv den beste menneskelige sjakkspiller. Siden er det utviklet flere motorer beregnet på sjakkspill og -analyse.

En av disse er Stockfish. Det delvis norskutviklede programmet har i mange år vært rangert som en av de aller beste sjakkmotorene, og vant senest i fjor det uoffisielle verdensmesterskapet for sjakkmotorer (TCEC).

Nå har Stockfish målt krefter mot den selvlærende, Google-utviklede algoritmen AlphaZero. Resultatet? Av totalt 100 partier, vant AlphaZero 28. 72 av partiene endte i remis. Googles algoritme kom seg altså ubeseiret gjennom alle partiene.

Resultatet er i seg selv interessant, men det blir desto mer oppsiktsvekkende når man ser nærmere på teknologiene de to datamaskinene bygger på.

Lærte seg selv opp med tilfeldige trekk

Mens Stockfish styres av tusenvis av regler utviklet av mennesker, har AlphaZero lært seg opp helt selv ved hjelp av maskinlæring.

Google-algoritmen ble kun matet med sjakkspillets regler. Deretter ble AlphaZero satt til å spille mot seg selv. Dette gjorde den ved hjelp av Monte Carlo-metoden, som utforsket potensielle trekk tilfeldig.

Hvert trekk lærte nodene i det nevrale nettverket mer om hva som er den beste måten å spille på. Nodene justerte seg etter dette.   

Etter fire timer, eller 300.000 trekk, presterte AlphaZero bedre enn Stockfish. De 100 omtalte partiene startet etter at AlphaZero hadde gjennomført 700.000 øvelsestrekk. Denne engelskspråklige, lesverdige rapporten beskriver eksperimentet i ytterligere detalj.  

Stockfish: Regler skrevet av mennesker

Stockfish fungerer på en litt annen måte.       

Den evaluerer hvor gode de ulike posisjonene er basert på en rekke regler utviklet av mennesker. Et eksempel er at løperen liker å ha kontroll på store diagonaler. Disse reglene er finjustert opp gjennom årene etter hvert som utviklerne har sett hva som fungerer og ikke.  

AlphaZero

AlphaZero er utviklet av DeepMind, et britisk AI-selskap som eies av Google.

AlphaZero er en mer generelt orientert utgave av algoritmen AlphaGo Zero, som nylig viste seg som verdens beste i brettspillet Go. AlphaZero prøvde seg også i spillene Shogi og nevnte Go. Den slo både det som skal være den beste databaserte Shogi-spilleren (Elmo) og Go (AlphaGo Lee).

I opptreningsfasen hadde AlphaZero tilgang til 5000 førstegenerasjons Tensor prosesseringsenheter (TPU) for å spille mot seg selv, og 64 annengenerasjons TPU-er for å trene det nevrale nettverket. Dette er en type mikrobrikker utviklet av Google for et spesielt bruksområde – i dette tilfellet maskinlæring. I partiene mot Stockfish skal AlphaZero imidlertid kun ha hatt tilgang på én enkel maskin med fire TPU-er. Den kunne dermed analysere 80.000 posisjoner per sekund, mot Stockfish’ 70 millioner.  

AlphaZero klarte likevel å slå Stockfish, ettersom den gjør en mer selektiv analyse mot de mest lovende variasjonene.

– Stockfish setter kongens sikkerhet opp mot en bonde som er kommet langt fram på brettet, opp mot en bonde som er beskyttet av en annen brikke, og så videre, forteller Jon Ludvig Hammer, stormester og Norges nest best rangerte sjakkspiller.

– Det er tusenvis av slike regler. Stockfish gir alt en nummerverdi som den så bruker til å avgjøre hva som er best, sier Hammer.

Som sekundant for Magnus Carlsen ved flere anledninger har Hammer lang erfaring med Stockfish.  

Han synes det er spennende at det som er ansett som en av verdens beste sjakkmotorer nå er slått av en motor som har lært seg opp helt selv.

– Det vi trodde var fasiten, kan forbedres

– Måten AlphaZero knuste Stockfish på tyder på at vi har sett sjakk bli spilt på et nivå vi ikke har sett tidligere, sier Hammer.

– Ved flere anledninger anså Stockfish situasjonen som fordelaktig, men endte opp med å tape partiet. Det er veldig interessant når vi ser en sånn feilvurdering av det vi tidligere trodde var fasiten. Den kan altså forbedres, sier Hammer.

Han trekker spesielt frem to elementer. Det ene er supercomputerens angrepsspill. og den strategiske teften til AlphaZero.

Jon Ludvig Hammer.
Jon Ludvig Hammer. Bilde: AGON/ VALERIY BELOBEEV

– Noe av angrepssjakken var helt spinnvill. AlphaZero ga bort en hest og latet som ingenting. Han spilte rolig videre i tre-fire trekk uten at det var noen klar angrepsplan: Han konsentrerte seg heller om å få resten av armeen i spill enn å angripe motstanders konge med én gang. Det så fryktelig imponerende ut, særlig siden Stockfish vurderte situasjonen som fordelaktig for seg selv, sier Hammer.  

AlphaGo beviser: Kunstig intelligens blir bedre uten ekspertise fra mennesker

Læringskurven for AlphaZero var bratt. Her vises læringskurven for henholdsvis sjakk, Shogi og Go.
Læringskurven for AlphaZero var bratt. Her vises læringskurven for henholdsvis sjakk, Shogi og Go. Bilde: Skjermdump fra rapporten Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

– En ny industristandard

Videre er også den strategiske teften til AlphaZero imponerende, mener Hammer.

– Blant sekundanter er det en dårlig skjult hemmelighet at sjakkcomputere ofte undervurderer terrengfordelen, for eksempel med en aggressiv bondestruktur i sentrum av brettet. Alpha fikk en sånn stilling og vant med stor stil. Stockfish hadde aggressive planer og mente den sto best. Likevel viste det seg at den viktigste langsiktige fordelen var å ha bønder høyt på brettet, sier Hammer.

Her kan du se chess.coms gjengivelse av et av partiene Hammer trekker frem som spesielt imponerende med tanke på terrengfordel (saken fortsetter nedenfor):

Han betegner AlphaZero som en ny industristandard som spillere på toppnivå ønsker å bruke til å analysere åpninger.

– Sjakkspillere på toppnivå bruker hele tiden datamaskiner til å analysere åpninger. Det kan hende visse åpninger nå blir uspillbare på grunn av nye trekk som oppdages. Da kan det komme en smell her og der, sier Hammer.

– For sjakkspillere er det veldig spennende om dette kan skaleres ned. Maskinvaren som AlphaZero brukte er litt «overkill», så man er avhengig av å gjøre det tilgjengelig på kommersielle datamaskiner, sier Hammer.

Kommentarer (18)

Kommentarer (18)