I et stream torsdag fremviste AI-virksomheden Deepmind en kamp mellem deres Starcraft 2-AI, AlphaStar, og den professionelle Starcraft 2-spiller Grzegorz ”MaNa” Komincz. Kampen bestod af fem spil, som blev spillet i december sidste år. AlphaStar vandt alle fem spil.
Det er første gang en kunstig intelligens slår en professionel Starcraft 2-spiller i en serie af spil under konkurrenceforhold.
Endnu en sejr for neurale netværk
Ligesom Deepminds anden AI, AlphaGo, og OpenAI 5, som udfordrer elitespillere i computerspillet Dota 2, er AlphaStar baseret på et neuralt netværk.
AlphaStar er trænet ud fra replays – kopier af Starcraft 2 spil, hvor alle handlinger er gemt og kan afspilles i rækkefølge, så man kan genskabe spillets gang, nogenlunde på samme måde som algebraisk notation i skak.
På baggrund af mange tusinde replays er AlphaStar blevet trænet ved hjælp af Supervised Learning og Reinforcement Learning.
Supervised Learning er maskinlæring, hvor algoritmen har et sæt inputdata og outputdata, og algoritmens succes vurderes ud fra dens evne til at forudsige det korrekte output for et vist input.
Reinforcement Learning er et andet paradigme inden for maskinlæring, hvor en algoritme måler sin succes ud fra evnen til at maksimere belønning. Belønning kan i den sammenhæng være point i go, vundet materiale i skak eller en stærkere hær i Starcraft 2.
I træningsfasen oprettede Deepmind en række udgaver af AlphaStar, som de kaldte agenter, med forskellige mål og begrænsninger. Derefter oprettede de en liga, hvor agenterne fik lov til at spille mod hinanden, for at finde de agenter, som udviklede de stærkeste strategier.
I løbet af ligaen spillede hver agent op til 200 års Starcraft 2 mod andre agenter, så selv om Grzegorz Komincz har spillet Starcraft, siden han var fem år gammel, er hans erfaringsniveau ikke i nærheden af AlphaStars.
Starcraft 2 har tre 'racer' man kan spille med forskellige bygninger og enheder. StarAlpha kan indtil videre kun finde ud af at spille Protoss-racen, og kun mod andre Protoss-spillere.
En gennemgang af, hvordan AlphaStar blev udviklet, kan findes på Deepminds hjemmeside
Den sidste hvide hval i en lang række hvide hvaler
Starcraft 2 er det seneste i en lang række af spil, som computere har overgået mennesker i.
I 1997 slog IBM’s Deep Blue den daværende verdensmester i skak, Gary Kasparov, og endnu længere tilbage, har computere kunne slå de bedste mennesker i dam.
I nyere tid har Deepminds go-AI, AlphaGo, i 2016 slået en af verdens bedste go-spillere, Lee Sedol, 4 – 1 i en kamp, der vakte stor opmærksomhed verden over.
Starcraft 2 er et spil, som byder på mange nye udfordringer for Deepmind-udviklerne. Hvor man i skak og go skiftes til at tage sine træk, foregår Starcraft 2 i real time - det hele sker på én gang, og det er vigtigt at man reagerer hurtigt på nye informationer.
Samtidig har Starcraft 2 et langt større action space. Det vil sige, at der er mange flere mulige handlinger tilgængelig for AI’en. I skak er der i gennemsnit ca. 35 muligheder for hvert træk. For go er tallet noget højere – omkring 250. Men fordi Starcraft 2 spilles med mange flere enheder og på et langt større 'bræt', har AlphaStar 10 opløftet i 26'ende gyldige muligheder for hver handling.
Endeligt spilles Starcraft 2, modsat skak og go, med ukomplet information. Spilleren kan kun se det, der er i nærheden af spillerens 'brikker' – de enheder spilleren har bygget. Derfor har AI’en den ekstra udfordring, at den skal tage højde for, at modstanderen kan skjule sin strategi, eller lave overraskelsesangreb.
Lige vilkår, næsten
AlphaStar spiller med den begrænsning, at den har en reaktionstid på 350 millisekunder, så den har ikke overmenneskelige reflekser. Den spillede heller ikke med overmenneskelig hastighed, men foretog i gennemsnit 277 'handlinger' – typisk klik med musen eller tastetryk på et tastatur – i minuttet.
Det er markant mindre end det almindelige niveau for en professionel Starcraft 2-spiller. Grzegorz Komincz foretog i serien i gennemsnit 390 handlinger i minuttet.
Ifølge Deepmind betyder begrænsningerne, at AlphaStars sejr er udtryk for overlegne taktiske beslutninger på kort og lang sigt, og ikke bare en computers overlegne hastighed.
AlphaStar spiller dog ikke helt som et menneske. I modsætning til at menneske, kan AlphaStar nemlig se alle sine enheder på én gang, hvor menneskelige spillere skal vælge, hvor på banen de vil kigge på et givent tidspunkt.
En udgave af AlphaStar er også udviklet, som kun kan 'se', hvad der foregår i et begrænset område ad gangen, på samme måde som et menneske. I en opvisningskamp vandt Grzegorz Komincz over denne udgave af AlphaStar, som dog havde gennemgået markant mindre træning end den stærkere version.