Deep Mind og Alpha Zero

Kunstig intelligens og nevrale nettverk har gitt nytt liv til sjakken

Maskinlæring er den helt nye faktoren som kan avgjøre hvem som får møte Magnus Carlsen i nordmannens femte VM-match. Systemet bidrar også i letingen etter en korona-vaksine.

Da Fabiano Caruana utfordet Magnus Carlsen i forrige VM-match, var Alpha Zeros resultater så vidt kjent, men spillestilen var ikke studert. Siden den gang har det nevrale nettverkets dynamiske spill satt et preg på toppsjakken.
Da Fabiano Caruana utfordet Magnus Carlsen i forrige VM-match, var Alpha Zeros resultater så vidt kjent, men spillestilen var ikke studert. Siden den gang har det nevrale nettverkets dynamiske spill satt et preg på toppsjakken. (Foto: Terje Bendiksby / NTB scanpix)

Maskinlæring er den helt nye faktoren som kan avgjøre hvem som får møte Magnus Carlsen i nordmannens femte VM-match. Systemet bidrar også i letingen etter en korona-vaksine.

Søndag starter åtte av verdens beste sjakkspillere kampen om å få møte regjerende mester Magnus Carlsen i VM-finale i desember. Nå er kunstig intelligens den aller viktigste faktoren i kampen for seier og millioninntekter. Det er noe helt nytt.

Alphazero slår alle

Alan Turing regnes som grunnleggeren av teoretisk datateknologi og kunstig intelligens, og er mest kjent for å ha vært med på å knekke tyskernes kodesystem under 2. verdenskrig. I 1948 begynte Turing og en kollega å skrive et dataprogram som skulle spille sjakk.

Først i 1997 var maskinene blitt kraftige nok og godt nok instruert til å slå regjerende verdensmester Garry Kasparov, i en serie partier mot IBMs maskin Deep Blue. I desember 2017 kom en ny revolusjon. Selskapet Deepmind lanserte Alphazero, et system basert på maskinlæring. Systemet ble matet med sjakkreglene, ingenting annet. Ifølge selskapet selv trengte Alphazero bare fire timers spill mot seg selv på å komme opp på nivå med sjakkprogrammet Stockfish – regnet som det beste i mange år. Noen timer senere var Alphazero konkurrenten overlegen.

Studerer koronaviruset

Mens vanlige sjakkprogrammer bruker alfa-beta-søk, der datamaskinen går igjennom en nesten uendelig mengde ulike sekvenser og vurderer dem etter instrukser som utviklerne har lagt inn i programmet, bruker Alphazero et Monte Carlo-basert søk. Denne metoden oppsto på 1940-tallet og er særlig brukt i spillanalyser. Veldig forenklet vil datamaskinen prøve seg fram med ulike løsninger, og velge den som virker mest lovende.

Fordelen med Monte Carlo-søk er at jo mer komplekst problemet er, jo mer effektiv blir letemetoden kontra andre typer søk. Alphazero analyserer 1/1000-del av mulighetene som Stockfish går igjennom, men er altså likevel overlegen.

Den effektiviteten kommer til nytte også på helt andre områder. Fra Alphazero går det en linje til arbeid som nå pågår for å bruke maskinlæring for å kartlegge proteinstrukturer knyttet til koronaviruset. Virusets genom deles i åpne databaser. Algoritmer og selvlærende systemer som blant annet bygger på Alphazero, brukes for å finne fram til mulige proteinstrukturer. I teorien kan dette korte ned tiden det tar å identifisere proteinstrukturen i koronaviruset, noe som igjen kan føre til at vi raskere får en vaksine.

Maskin med menneskelige egenskaper

Kunstige nevrale nettverk er løselig basert på strukturen i menneskets hjerne, noe som er et kjennetegn for nevrale nettverk. Flere av de TU har snakket med til denne artikkelen, bruker gjerne menneskelige egenskaper for å beskrive hvordan det nettverket jobber.

Skjematisk tegning av et nevralt nettverk. Data mates via input-delen, behandles i det som gjerne kalles for et skjult lag, og ender som en output til brukeren. Illustrasjon: Cburnett/Wikipedia/CC BY-SA 3.0

Ifølge magasinet Science er sjakk den aktiviteten som lengst har vært gjenstand for forsøk med bruk av kunstig intelligens eller maskinlæring. Både Alphazero og fritt tilgjengelige alternativer, som Leela Zero, er basert på nevrale nettverk for å vurdere situasjonen på brettet. 

– Stillingen kvernes gjennom et såkalt policy-nett, og Alphazero kommer opp med en liste aktuelle trekk. Et verdinett bruker stillingen som oppstår etter et aktuelt trekk som input, og gir en prosentscore som output, forklarer utvikler Rune Djurhuus i Microsoft Development Centre Norway. Djurhuus er også stormester i sjakk.

Alphazero driver forsterkende læring; den «husker» alle tidligere partier som er spilt og korrigerer egne feil: I stillinger som ikke har gitt seier, prøver den nye alternativer.

– Jobber litt som oss

Natasha Regan er matematiker og aktuar, og har sammen med IT-ekspert Matthew Sadler studert sjakkspillet til Alphazero. Regan er også såkalt internasjonal mester i sjakk, mens Sadler er stormester som Magnus Carlsen. Resultatet av studiene er boka «Game Changer».

Maskinlæringen har ført til mer aggressive og spennende spill. Det har blitt mer vanlig at hvit sender en kantbonde helt opp i motspillers forsvar rundt kongen. Stillingen er fra et parti Magnus Carlsen spilte etter at analysene av Alphazeros partier var publisert. Foto: Ole Petter Pedersen

– Alphazero jobber litt slik vi mennesker tenker. Den tar hensyn til alle forskjellige varianter som den studerer. Et tradisjonelt program ser på én variant isolert. I sjakk trenger du som spiller å forstå om du står best eller dårligst. Alphazero jobber på samme måte, sier Regan til Teknisk Ukeblad.

Toppspillerne har hentet inspirasjon fra de nevrale nettverkene, mener Regan. Et eksempel er at det å sende fram en kantbonde har blitt populært på toppnivå; en strategi som tidligere ble sett på som amatørmessig og simpel.

Les også

Menneske og maskin samarbeider

Maskinlæring får sjelden oppmerksomhet, men Alphazero er et unntak. Sadler og Regan er tydelige på at forsøkene har relevans til virkelighetens verden.

– Teknikkene som Alphazero benytter er lovende på områder hvor du bare har ideer og data, ingenting annet. Partiene kan brukes for å utvikle teknikker som er robuste også på andre felt, sier Sadler.

Mens maskinlæring ofte nevnes i tilknytning til automatisering av jobber, viser sjakk at menneske og maskin kan jobbe svært godt sammen, mener de to. Maskinlæringen presenterer nye perspektiver vi mennesker ikke har reflektert over.

Natasha Regan og Matthew Sadler diskuterer kunstig intelligens og sjakk i denne videoen fra en konferanse i London i fjor.

– Mennesket bidrar med kontekst, og kan spørre: Hva er brukbart for meg i den virkelige verden. Vi får de virkelig store tingene til å skje når mennesket guider maskinen til å returnere bedre resultater. Mennesket mater maskinen med ideer, dataene kvernes og maskinen kommer igjen opp med nye ideer som intuitivt kan forstås. Ser vi det slik, er potensialet stort også på andre områder, sier Sadler.

Regan jobber til daglig innen forsikringsbransjen, som ifølge henne nå i stor utstrekning utforsker hvordan nevrale nettverk kan forutsi korrekt pris.

Lett å se nye løsninger

Hvordan nettverkene finner helt nye løsninger blir veldig åpenbart i sjakk, ved at det kommer opp med trekk og løsninger som mennesker og gammeldagse sjakkprogrammer har forkastet. Optimistene vil si at kunstig intelligens i sjakk dermed visualiserer hvordan maskinlæring kan hjelpe oss å finne nye løsninger – som en vaksine mot koronavirus.

Tenk deg dette på et annet område, hvor det kan dukke opp helt andre ideer som mennesker ikke har tenkt på i det hele tatt

Natasha Regan, matematiker

Regan og Sadler nevner ett eksempel: En anerkjent sjakkbok presenterte åtte forskjellige, fornuftige trekk som alternativer i en åpning. Alphazero ble presentert for stillingen, og kom opp med en helt annen løsning som ikke engang var nevnt – og som heller ikke Stockfish vurderte seriøst.

– Tenk deg dette på et annet område, hvor det kan dukke opp helt andre ideer som mennesker ikke har tenkt på i det hele tatt. Vi har ofte skylapper når vi angriper et problem, sier Regan.

Sadler understreker symbiosen mellom menneske og maskin som avgjørende for å oppnå nye, spennende resultater ved hjelp av maskinlæring. Han mener Magnus Carlsen fanget opp mulighetene Alphazero presenterte mye raskere enn konkurrentene – men at flere nå kommer etter.

– Toppsjakken er mye mer spennende nå enn for to år siden. Alle analyserer med hjelp av maskinlæring, og Magnus er selvsagt trendsetteren. Det kan bare lede til morsommere sjakk, mener Sadler.

Les også

Carlsen-trener: Inspirasjon

Magnus Carlsens trener Peter Heine Nielsen mener kunstig intelligens har inspirert verdensmesteren til å nå nye høyder. Nielsen er begeistret for hvordan nevrale nettverk har fornyet sjakken.

– Før kunne Magnus Carlsen tenke «jeg tror ikke Stockfish har rett», men du kunne ikke argumentere mot programmet. Nå har vi to dynamiske autoriteter, og Alphazero forstår sjakk på mer menneskelige premisser. Dermed får vi to forskjellige sannheter: Den dype og intuitive, og den konkrete regnemaskinen. Rommet for hva vi trodde var mulig i sjakk, blir dermed større. Jo flere muligheter, jo bedre for Magnus.

– Eksepsjonell intuisjon

Ifølge Nielsen er det slutt på at toppspillerne ankom turneringene med en bærbar datamaskin for å studere neste motspillers partier. I stedet leier spillerne regnekraft via ulike skytjenester, og har dermed også tilgang til betydelig større kapasitet enn før.

Etter Alphazero har det vært snakket om at angrepssjakk får en renessanse. Alphazero slo Stockfish flere ganger takket være angrep der det nevrale nettverket ofret materiell til fordel for et initiativ i partiet.

Magnus Carlsens trener Peter Heine Nielsen er svært begeistret for hvordan algoritmene i Alphazero viser menneskelige egenskaper som intuisjon. Foto: Carina Johansen / NTB Scanpix

– Da partiene ble publisert, så vi at Stockfish ble knust i langvarige angrep. Jeg ville ikke trodd det, om jeg ikke hadde sett det. Alphazero fant noen nye teknikker og ressurser, og har en eksepsjonelt god intuisjon. Den er ikke tynget av gammel, menneskelig viten som kanskje ikke engang er korrekt. Vi er inne i en veldig dynamisk periode nå. Det er enormt spennende, sier Nielsen til TU.

Entusiasme 

Rune Djurhuus har vært i den norske sjakkeliten i 30 år og ble europamester for junior i 1991. Til daglig jobber han altså som utvikler og har hovedfag i informatikk. Han blir veldig ivrig når samtalen vår penser inn på hvordan nevrale nettverk har fornyet «computersjakken» via Alphazero og open source-varianten Leela Zero. Den utgaven har alle toppspillere og andre som ønsker det, tilgang til i dag.

Djurhuus understreker at han ikke selv er ekspert på kunstig intelligens, men er ikke i tvil om at støtte fra datamaskiner blir viktigere og viktigere for toppspillerne som møtes i Russland nå for å kjempe om å få møte Carlsen i duell om VM-tittelen.

Med hovedfag i informatikk og stormestertittel i sjakk har Rune Djurhuus en sjelden innsikt i begge verdener. I 1991 ble han europamester for juniorer, foran blant annet senere verdensmester Vladimir Kramnik. Foto: Kristoffer Gressli

Da datamaskinene for alvor ble tatt i bruk innen sjakk på 1980-tallet, var det først og fremst databaseegenskapene som ble utnyttet. Spillerne kunne endelig holde oversikt over andre spilleres partier på en effektiv måte. Å vite hva motspiller normalt bruker av åpninger, er svært viktig innen sjakk.

– Garry Kasparov satte standarden. Han var langt foran sin tid, særlig i åpningsspillet. Kasparov analyserte dypt og hadde mange ideer.

Mens klassiske sjakkprogrammer er veldig gode til å finne rene taktiske muligheter – for eksempel at den ene spilleren kan vinne viktig materiell i løpet av få trekk i en uoversiktlig stilling, er de dårlige på å forklare spillerne hvorfor en plan er bedre enn en annen, påpeker Djurhuus.

Det hjelper heller ikke så mye å starte regneoperasjonene i en spesiell stilling, la datamaskinen jobbe i noen timer og så komme tilbake for å se hva den har funnet ut. Menneske og maskin må samarbeide.

– Toppspillerne har gjerne såkalte sekundanter som gjør mye av jobben. De er gjerne kapteinen på skipet, som styrer datamaskinen i hvilken retning den skal analysere.

Helt digitalt

At sjakken har blitt mer og mer digitalt basert, har vært et stort pluss, ifølge Djurhuus.

– Magnus Carlsen leste mange sjakkbøker da han var 10–11 år, mens dagens unge sjakktalenter knapt leser en bok. Alt skjer på nett. Jeg som vokste opp på Elverum hadde en ulempe kontra de som bodde i Oslo. Slik er det ikke lenger, hvor du bor betyr ingenting.

Med maskinlæring har det imidlertid kommet noe helt nytt. Da resultatene fra Alphazeros partier ble presentert, var det et sjokk for sjakkverden.

– I mange år var dybden i analysene viktigst; hvor mange trekk framover maskinene regnet. Stockfish bruker en lineær funksjon til å bedømme hvem som står best i en sjakkstilling, og regner kanskje 60 millioner trekk per sekund på en god maskin. I et alfa-beta-søk er det viktig å finne det beste første trekket blant kanskje 40 mulige, og starte søket med det trekket, slik at søket kan avgrenses mest mulig. Evalueringen til programmet blir ofte 0,0 – altså likt. Det er en ulempe, for det kan bety mange ting. Alphazero har et helt annet syn på stillingene, noe som er veldig spennende.

Der Stockfish sier 0,0 kan kanskje Alphazero bedømme stillingen til 53 prosent sjanse for hvit, uten å ha noen klar idé om hvordan partiet skal vinnes mange trekk fram i tid. Ifølge Djurhuus rimer det mer med en menneskelig måte å tenke på. Sjakkspilleren ser ikke så mange trekk fram, men har et inntrykk av at man står best på grunn av noen faktorer i stillingen.

Siden nevrale nettverk spiller sjakk på en annen måte, og i noen partier ofrer materiell eller gjør andre ting Stockfish og annen programvare unngår, har det påvirket flere toppspillere.

– Magnus Carlsen har blitt inspirert til å spille mer aggressiv sjakk, såkalt offersjakk. Alphazero klarte å bygge opp angrep sakte, du kunne se at stillingen ble bedre og bedre selv om programmet lå under i antall brikker. Utfordringen når mennesker spiller slik, er at man ofte tuller seg bort når man skal sette inn det avgjørende støtet.

Les også

Interaktivt forhold med maskinen

Som toppspiller i Norge stiller Djurhuus i en helt annen divisjon når det gjelder forberedelser enn de som møtes i Russland de neste ukene. Tid er den avgjørende faktoren.

– Det koster en del tid å sette seg ned med datamaskinen. Du kan la den regne alene, men aller helst skal du veilede den i visse retninger. Forholdet er interaktivt. De beste i verden bruker vanvittig mye tid på å pønske ut nye ideer i åpningene.

Carlsen-trener Nielsen er blant dem som jobber de lange dagene for å finne nye varianter. Og selv om maskinlæringen har gitt mer spennende sjakk nå, er han ikke sikker på at det forblir slik. Sjakk er et spill der det på toppnivå svært ofte ender uavgjort. Nielsen mener uansett at det er den beste spilleren vinner til slutt, ikke datamaskinen bak.

VM i sjakk

Verdensmester Magnus Carlsen møter en utfordrer til VM-finale mot slutten av 2020. Det blir Carlsens femte finale. Han har vunnet de fire foregående, og har vært verdensmester siden 2013.

Disse åtte spillerne møtes over 14 runder i Jekaterinburg, Russland: Fabiano Caruana (USA, rangert som nr 2 i verden), Ding Liren (Kina, nr 3), Alexander Grischuk (Russland, nr 4), Ian Nepomniachtchi (Russland, nr 5), Maxime Vachier-Lagrave (Frankrike, nr 8), Anish Giri (Nederland, nr 11), Wang Hao (Kina, nr 12) og Kirill Alekseenko (Russland, nr 39).

Turneringen spilles fram til 4. april. Åpningsseremonien er søndag 15. mars, og 1. runde spilles 17. mars.

VM-finalen spilles etter planen i Dubai, antakelig i desember. Finalen går over 14 partier.

– Nå er computerkraften ekstrem. Men grunnleggende er fortsatt at den beste sjakkspilleren vinner. Du finner ikke eksempler på at det var den med best teknologi. Arbeidet med datamaskinen må du ha. Men Magnus Carlsen har noen unike kvaliteter. Han er ikke så avhengig av teknologi, han har et menneskelig syn på stillingene på brettet, sier Nielsen til TU.

– Magnus har endret spillestil dramatisk de siste to årene. Han spiller skarpere åpninger basert på kunnskap fra de nye nevrale nettverkene, mener Sven Wisløff Nilssen, som driver bloggen sjakkfantomet.no og følger særlig turneringene Magnus Carlsen spiller.

Favoritten til å vinne kandidatturneringen som starter nå, er Fabiano Caruana.

Nilssen beskriver de to litt slik andre beskriver forskjellen på Alphazero og Stockfish:

– Magnus regner bredere enn Caruana, men ikke like langt fremover. Det betyr at de er svært ulike og at Magnus sin styrke er å se mange muligheter i hvert trekk og flere mulige strategivalg.

Amerikaneren holdt remis mot Carlsen i alle de 12 partiene i forrige VM-finale, før han ble for svak i hurtigsjakken. Caruana hadde imidlertid ifølge datamaskinene en meget god vinstsjanse i ett av partiene: Programvaren fant en måte å sette matt i rundt 30 trekk.

– Jeg vil ikke argumentere mot datamaskinen, kommenterte Caruana tørt etter partiet, da han ble gjort oppmerksom på muligheten han ikke fant.

– Jeg skjønner det bare ikke.

Nå spørs det om ikke både han og de andre utfordrerne forstår mer.

Les også

Kommentarer (0)

Kommentarer (0)

Eksklusivt for digitale abonnenter

På forsiden nå