Deep Mind og Alpha Zero

Kunstig intelligens og nevrale nettverk har gitt nytt liv til sjakken

Maskinlæring er den helt nye faktoren som kan avgjøre hvem som får møte Magnus Carlsen i nordmannens femte VM-match. Systemet har også bidratt i letingen etter en korona-vaksine.

Da Fabiano Caruana utfordet Magnus Carlsen i forrige VM-match, var Alpha Zeros resultater så vidt kjent, men spillestilen var ikke studert. Siden den gang har det nevrale nettverkets dynamiske spill satt et preg på toppsjakken.
Da Fabiano Caruana utfordet Magnus Carlsen i forrige VM-match, var Alpha Zeros resultater så vidt kjent, men spillestilen var ikke studert. Siden den gang har det nevrale nettverkets dynamiske spill satt et preg på toppsjakken. (Foto: Terje Bendiksby / NTB scanpix)

Maskinlæring er den helt nye faktoren som kan avgjøre hvem som får møte Magnus Carlsen i nordmannens femte VM-match. Systemet har også bidratt i letingen etter en korona-vaksine.

Artikkelen er oppdatert 17. april.

Mandag fortsetter åtte av verdens beste sjakkspillere kampen om å få møte regjerende mester Magnus Carlsen i VM-finale, etter et års koronapause. Nå er kunstig intelligens den aller viktigste faktoren i kampen for seier og millioninntekter. Det er noe helt nytt.

Alphazero slår alle

Alan Turing regnes som grunnleggeren av teoretisk datateknologi og kunstig intelligens, og er mest kjent for å ha vært med på å knekke tyskernes kodesystem under 2. verdenskrig. I 1948 begynte Turing og en kollega å skrive et dataprogram som skulle spille sjakk.

Først i 1997 var maskinene blitt kraftige nok og godt nok instruert til å slå regjerende verdensmester Garry Kasparov, i en serie partier mot IBMs maskin Deep Blue. I desember 2017 kom en ny revolusjon. Selskapet Deepmind lanserte Alphazero, et system basert på maskinlæring. Systemet ble matet med sjakkreglene, ingenting annet. Ifølge selskapet selv trengte Alphazero bare fire timers spill mot seg selv på å komme opp på nivå med sjakkprogrammet Stockfish – regnet som det beste i mange år. Noen timer senere var Alphazero konkurrenten overlegen.

Studerer koronaviruset

Mens vanlige sjakkprogrammer bruker alfa-beta-søk, der datamaskinen går igjennom en nesten uendelig mengde ulike sekvenser og vurderer dem etter instrukser som utviklerne har lagt inn i programmet, bruker Alphazero et Monte Carlo-basert søk. Denne metoden oppsto på 1940-tallet og er særlig brukt i spillanalyser. Veldig forenklet vil datamaskinen prøve seg fram med ulike løsninger, og velge den som virker mest lovende.

Fordelen med Monte Carlo-søk er at jo mer komplekst problemet er, jo mer effektiv blir letemetoden kontra andre typer søk. Alphazero analyserer 1/1000-del av mulighetene som Stockfish går igjennom, men er altså likevel overlegen.

Den effektiviteten kommer til nytte også på helt andre områder. Fra Alphazero går det en linje til arbeidet for å bruke maskinlæring for å kartlegge proteinstrukturer knyttet til koronaviruset. Virusets genom deles i åpne databaser. Algoritmer og selvlærende systemer som blant annet bygger på Alphazero, brukes for å finne fram til mulige proteinstrukturer. Da viruset spredte seg våren 2020, var ideen at dette skulle korte ned tiden det tar å identifisere proteinstrukturen i koronaviruset, noe som igjen kunne føre til at vi raskere fikk en vaksine.

Maskin med menneskelige egenskaper

Kunstige nevrale nettverk er løselig basert på strukturen i menneskets hjerne, noe som er et kjennetegn for nevrale nettverk. Flere av de TU har snakket med til denne artikkelen, bruker gjerne menneskelige egenskaper for å beskrive hvordan det nettverket jobber.

Skjematisk tegning av et nevralt nettverk. Data mates via input-delen, behandles i det som gjerne kalles for et skjult lag, og ender som en output til brukeren. Illustrasjon: Cburnett/Wikipedia/CC BY-SA 3.0

Ifølge magasinet Science er sjakk den aktiviteten som lengst har vært gjenstand for forsøk med bruk av kunstig intelligens eller maskinlæring. Både Alphazero og fritt tilgjengelige alternativer, som Leela Zero, er basert på nevrale nettverk for å vurdere situasjonen på brettet. 

– Stillingen kvernes gjennom et såkalt policy-nett, og Alphazero kommer opp med en liste aktuelle trekk. Et verdinett bruker stillingen som oppstår etter et aktuelt trekk som input, og gir en prosentscore som output, forklarer utvikler Rune Djurhuus i Microsoft Development Centre Norway. Djurhuus er også stormester i sjakk.

Alphazero driver forsterkende læring; den «husker» alle tidligere partier som er spilt og korrigerer egne feil: I stillinger som ikke har gitt seier, prøver den nye alternativer.

– Jobber litt som oss

Natasha Regan er matematiker og aktuar, og har sammen med IT-ekspert Matthew Sadler studert sjakkspillet til Alphazero. Regan er også såkalt internasjonal mester i sjakk, mens Sadler er stormester som Magnus Carlsen. Resultatet av studiene er boka «Game Changer».

Maskinlæringen har ført til mer aggressive og spennende spill. Det har blitt mer vanlig at hvit sender en kantbonde helt opp i motspillers forsvar rundt kongen. Stillingen er fra et parti Magnus Carlsen spilte etter at analysene av Alphazeros partier var publisert. Foto: Ole Petter Pedersen

– Alphazero jobber litt slik vi mennesker tenker. Den tar hensyn til alle forskjellige varianter som den studerer. Et tradisjonelt program ser på én variant isolert. I sjakk trenger du som spiller å forstå om du står best eller dårligst. Alphazero jobber på samme måte, sier Regan til Teknisk Ukeblad.

Toppspillerne har hentet inspirasjon fra de nevrale nettverkene, mener Regan. Et eksempel er at det å sende fram en kantbonde har blitt populært på toppnivå; en strategi som tidligere ble sett på som amatørmessig og simpel.

Les også

Menneske og maskin samarbeider

Maskinlæring får sjelden oppmerksomhet, men Alphazero er et unntak. Sadler og Regan er tydelige på at forsøkene har relevans til virkelighetens verden.

– Teknikkene som Alphazero benytter er lovende på områder hvor du bare har ideer og data, ingenting annet. Partiene kan brukes for å utvikle teknikker som er robuste også på andre felt, sier Sadler.

Mens maskinlæring ofte nevnes i tilknytning til automatisering av jobber, viser sjakk at menneske og maskin kan jobbe svært godt sammen, mener de to. Maskinlæringen presenterer nye perspektiver vi mennesker ikke har reflektert over.

Natasha Regan og Matthew Sadler diskuterer kunstig intelligens og sjakk i denne videoen fra en konferanse i London i fjor.

– Mennesket bidrar med kontekst, og kan spørre: Hva er brukbart for meg i den virkelige verden. Vi får de virkelig store tingene til å skje når mennesket guider maskinen til å returnere bedre resultater. Mennesket mater maskinen med ideer, dataene kvernes og maskinen kommer igjen opp med nye ideer som intuitivt kan forstås. Ser vi det slik, er potensialet stort også på andre områder, sier Sadler.

Regan jobber til daglig innen forsikringsbransjen, som ifølge henne nå i stor utstrekning utforsker hvordan nevrale nettverk kan forutsi korrekt pris.

Lett å se nye løsninger

Hvordan nettverkene finner helt nye løsninger blir veldig åpenbart i sjakk, ved at det kommer opp med trekk og løsninger som mennesker og gammeldagse sjakkprogrammer har forkastet. Optimistene vil si at kunstig intelligens i sjakk dermed visualiserer hvordan maskinlæring kan hjelpe oss å finne nye løsninger – som en vaksine mot koronavirus.

Tenk deg dette på et annet område, hvor det kan dukke opp helt andre ideer som mennesker ikke har tenkt på i det hele tatt

Natasha Regan, matematiker

Regan og Sadler nevner ett eksempel: En anerkjent sjakkbok presenterte åtte forskjellige, fornuftige trekk som alternativer i en åpning. Alphazero ble presentert for stillingen, og kom opp med en helt annen løsning som ikke engang var nevnt – og som heller ikke Stockfish vurderte seriøst.

– Tenk deg dette på et annet område, hvor det kan dukke opp helt andre ideer som mennesker ikke har tenkt på i det hele tatt. Vi har ofte skylapper når vi angriper et problem, sier Regan.

Sadler understreker symbiosen mellom menneske og maskin som avgjørende for å oppnå nye, spennende resultater ved hjelp av maskinlæring. Han mener Magnus Carlsen fanget opp mulighetene Alphazero presenterte mye raskere enn konkurrentene – men at flere nå kommer etter.

– Toppsjakken er mye mer spennende nå enn for to år siden. Alle analyserer med hjelp av maskinlæring, og Magnus er selvsagt trendsetteren. Det kan bare lede til morsommere sjakk, mener Sadler.

Les også

Carlsen-trener: Inspirasjon

Magnus Carlsens trener Peter Heine Nielsen mener kunstig intelligens har inspirert verdensmesteren til å nå nye høyder. Nielsen er begeistret for hvordan nevrale nettverk har fornyet sjakken.

– Før kunne Magnus Carlsen tenke «jeg tror ikke Stockfish har rett», men du kunne ikke argumentere mot programmet. Nå har vi to dynamiske autoriteter, og Alphazero forstår sjakk på mer menneskelige premisser. Dermed får vi to forskjellige sannheter: Den dype og intuitive, og den konkrete regnemaskinen. Rommet for hva vi trodde var mulig i sjakk, blir dermed større. Jo flere muligheter, jo bedre for Magnus.

– Eksepsjonell intuisjon

Ifølge Nielsen er det slutt på at toppspillerne ankom turneringene med bare en bærbar datamaskin for å studere neste motspillers partier. I stedet leier spillerne regnekraft via ulike skytjenester, og har dermed også tilgang til betydelig større kapasitet enn før.

Etter Alphazero har det vært snakket om at angrepssjakk får en renessanse. Alphazero slo Stockfish flere ganger takket være angrep der det nevrale nettverket ofret materiell til fordel for et initiativ i partiet – en menneskelig måte å spille sjakk på.

Magnus Carlsens trener Peter Heine Nielsen er svært begeistret for hvordan algoritmene i Alphazero viser menneskelige egenskaper som intuisjon. Foto: Carina Johansen / NTB Scanpix

– Da partiene ble publisert, så vi at Stockfish ble knust i langvarige angrep. Jeg ville ikke trodd det, om jeg ikke hadde sett det. Alphazero fant noen nye teknikker og ressurser, og har en eksepsjonelt god intuisjon. Den er ikke tynget av gammel, menneskelig viten som kanskje ikke engang er korrekt. Vi er inne i en veldig dynamisk periode nå. Det er enormt spennende, sier Nielsen til TU.

 

Les også

Kommentarer (0)

Kommentarer (0)

Eksklusivt for digitale abonnenter

På forsiden nå