Starcraft 2-AI AlphaStar slår professionel spiller 5 - 0

Illustration: Deepmind / Screenshot
Den kunstige intelligens AlphaStar har vundet over den professionelle Starcraft 2-spiller Grzegorz ”MaNa” Komincz 5 – 0 i en serie af kampe. Det er første gang en kunstig intelligens slår en professionel spiller i det populære strategispil

I et stream torsdag fremviste AI-virksomheden Deepmind en kamp mellem deres Starcraft 2-AI, AlphaStar, og den professionelle Starcraft 2-spiller Grzegorz ”MaNa” Komincz. Kampen bestod af fem spil, som blev spillet i december sidste år. AlphaStar vandt alle fem spil.

Det er første gang en kunstig intelligens slår en professionel Starcraft 2-spiller i en serie af spil under konkurrenceforhold.

Endnu en sejr for neurale netværk

Ligesom Deepminds anden AI, AlphaGo, og OpenAI 5, som udfordrer elitespillere i computerspillet Dota 2, er AlphaStar baseret på et neuralt netværk.

Læs også: Kunstig intelligens tæver Dota 2-elitespillere, udfordrer verdensmestre

AlphaStar er trænet ud fra replays – kopier af Starcraft 2 spil, hvor alle handlinger er gemt og kan afspilles i rækkefølge, så man kan genskabe spillets gang, nogenlunde på samme måde som algebraisk notation i skak.

På baggrund af mange tusinde replays er AlphaStar blevet trænet ved hjælp af Supervised Learning og Reinforcement Learning.

Supervised Learning er maskinlæring, hvor algoritmen har et sæt inputdata og outputdata, og algoritmens succes vurderes ud fra dens evne til at forudsige det korrekte output for et vist input.

Reinforcement Learning er et andet paradigme inden for maskinlæring, hvor en algoritme måler sin succes ud fra evnen til at maksimere belønning. Belønning kan i den sammenhæng være point i go, vundet materiale i skak eller en stærkere hær i Starcraft 2.

I træningsfasen oprettede Deepmind en række udgaver af AlphaStar, som de kaldte agenter, med forskellige mål og begrænsninger. Derefter oprettede de en liga, hvor agenterne fik lov til at spille mod hinanden, for at finde de agenter, som udviklede de stærkeste strategier.

I løbet af ligaen spillede hver agent op til 200 års Starcraft 2 mod andre agenter, så selv om Grzegorz Komincz har spillet Starcraft, siden han var fem år gammel, er hans erfaringsniveau ikke i nærheden af AlphaStars.

Starcraft 2 har tre 'racer' man kan spille med forskellige bygninger og enheder. StarAlpha kan indtil videre kun finde ud af at spille Protoss-racen, og kun mod andre Protoss-spillere.

En gennemgang af, hvordan AlphaStar blev udviklet, kan findes på Deepminds hjemmeside

Den sidste hvide hval i en lang række hvide hvaler

Starcraft 2 er det seneste i en lang række af spil, som computere har overgået mennesker i.

I 1997 slog IBM’s Deep Blue den daværende verdensmester i skak, Gary Kasparov, og endnu længere tilbage, har computere kunne slå de bedste mennesker i dam.

I nyere tid har Deepminds go-AI, AlphaGo, i 2016 slået en af verdens bedste go-spillere, Lee Sedol, 4 – 1 i en kamp, der vakte stor opmærksomhed verden over.

Læs også: Google kombinerede neurale netværk for at vinde 4-1 i brætspillet Go

Starcraft 2 er et spil, som byder på mange nye udfordringer for Deepmind-udviklerne. Hvor man i skak og go skiftes til at tage sine træk, foregår Starcraft 2 i real time - det hele sker på én gang, og det er vigtigt at man reagerer hurtigt på nye informationer.

Samtidig har Starcraft 2 et langt større action space. Det vil sige, at der er mange flere mulige handlinger tilgængelig for AI’en. I skak er der i gennemsnit ca. 35 muligheder for hvert træk. For go er tallet noget højere – omkring 250. Men fordi Starcraft 2 spilles med mange flere enheder og på et langt større 'bræt', har AlphaStar 10 opløftet i 26'ende gyldige muligheder for hver handling.

Endeligt spilles Starcraft 2, modsat skak og go, med ukomplet information. Spilleren kan kun se det, der er i nærheden af spillerens 'brikker' – de enheder spilleren har bygget. Derfor har AI’en den ekstra udfordring, at den skal tage højde for, at modstanderen kan skjule sin strategi, eller lave overraskelsesangreb.

Lige vilkår, næsten

AlphaStar spiller med den begrænsning, at den har en reaktionstid på 350 millisekunder, så den har ikke overmenneskelige reflekser. Den spillede heller ikke med overmenneskelig hastighed, men foretog i gennemsnit 277 'handlinger' – typisk klik med musen eller tastetryk på et tastatur – i minuttet.

Det er markant mindre end det almindelige niveau for en professionel Starcraft 2-spiller. Grzegorz Komincz foretog i serien i gennemsnit 390 handlinger i minuttet.

Ifølge Deepmind betyder begrænsningerne, at AlphaStars sejr er udtryk for overlegne taktiske beslutninger på kort og lang sigt, og ikke bare en computers overlegne hastighed.

AlphaStar spiller dog ikke helt som et menneske. I modsætning til at menneske, kan AlphaStar nemlig se alle sine enheder på én gang, hvor menneskelige spillere skal vælge, hvor på banen de vil kigge på et givent tidspunkt.

En udgave af AlphaStar er også udviklet, som kun kan 'se', hvad der foregår i et begrænset område ad gangen, på samme måde som et menneske. I en opvisningskamp vandt Grzegorz Komincz over denne udgave af AlphaStar, som dog havde gennemgået markant mindre træning end den stærkere version.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (9)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Rune Bang Frederiksen Journalist

Vil nu også mene at dette er snyd. "nemlig se alle sine enheder på én gang" Svare vel til at ConterStrick spiller må se det som streames

Det er klart en fordel, men det er ikke helt det samme som at se streamet - computeren får for eksempel ikke lov til at se, hvad der foregår i modstanderens base, medmindre den faktisk har sent nogle enheder derind.

Med andre ord har den ikke mere tilgængelig information end et menneske, den kan bare "opfatte" alt sin tilgængelige information på én gang.

Cristian Ambæk

Det var ret interessant indtil jeg læste.

AlphaStar spiller dog ikke helt som et menneske. I modsætning til at menneske, kan AlphaStar nemlig se alle sine enheder på én gang, hvor menneskelige spillere skal vælge, hvor på banen de vil kigge på et givent tidspunkt.

Jeg forstår ikke hvordan man kan skrive

Ifølge Deepmind betyder begrænsningerne, at AlphaStars sejr er udtryk for overlegne taktiske beslutninger på kort og lang sigt

Når der ikke spilles på lige fod.

I så fald skulle man jo give menneskelig spillere muligheden for at kunne oprette X forskellige 'views' som kan følge tropper eller være over baser, som vises over 1 eller flere skærme så mennesker har muligheden for at se flere views af gangen end det ene man har mulighed for i SC2 og tilgå dem nemt.

Lasse Lindgård

Den fulde historie kan findes her:
https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-st...

Hvis man ser den til enden, kan man se at AlphaStar godt nok slår de to pro spillere 10-0 med en AI som kan se alle enheder på en gang. Og som også på kritiske punkter udnytter det f.eks. i et angreb for den angriber fra tre sider på en gang og micromanager enhederne på en måde, som ikke kan lade sig gøre for et menneske.

Men til sidst i videoen, fortæller AlphaStar teamet at de har lavet en helt ny AI, som spiller ligesom et menneske forstået sådan at den kun kan se det som er på skræmen.

Første generation af dén AI slår pro spilleren let. Meen mon ikke de snart kommer efter det.

Et andet aspekt som også er interessant er at deres AI er trænet med menneskespilleres kampe. Det var mere interessant, hvis den var trænet op fra bunden. Men der kommer sikkert også en AlphaStarZero, før vi har hørt det sidste om det her.

Bjarne Nielsen

Første generation af dén AI slår pro spilleren let. Meen mon ikke de snart kommer efter det.

Jeg er generelt meget enig i hele din analyse; det er åbenlyst, at den har langt bedre "periferi-syn", en stor kapacitet for detaljer og et overraskende køligt overbilk.

Der er også en fordel i, at AI har startet ud med at lære hvordan mennesker spiller, mens både MaNa og TLO først lige skulle vænne sig til en ny form for modstander. De prøvede først at forstå deres modstander i det billede, som mange har af "AI" udfra hvad vi ellers har mødt i computerspil (bare bedre), og da det brød sammen, så i kraft af deres forståelse af menneskelige modstandere.

DeepMind teamet svarer på et tidspunkt, at hver "agent" har trænet i omegnen af hvad der svarer til 200 års spilletid. Der er altså langt bedre tid til at udforske parameterrummet og det er åbenbart også nødvendigt at kunne det. MaNa kommer igen efter at have prøvet bare 5 spil imod 5 forskellige agenter, og slår så den 6. i show-kampen. Det siger mig, at AI vil komme til kort, hvis man befinder sig i situationer, hvor omstændighederne (parameterrummet) ændrer sig med en hastighed og på en så uforudsigelig måde, at det ikke giver tid til træning i de nye omstændigheder.

MaNa lærer da også (mindst) to ting fra AI fra sine første kampe (og mon ikke hele scenen tager det til sig): der er værdi i at 'overproducere' arbejdere, og det er nødvendigt at lægge langt større vægt på opklaring og overvågning. Men jeg er generelt imponeret af hans spil i den kamp, som han vinder; sejren er fortjent!

som spiller ligesom et menneske forstået sådan at den kun kan se det som er på skræmen

Mja. De tvinger den til at fokusere på samme måde som et menneske, det er ikke fordi at den førhen fik information, som lå ud over, hvad der in-potentia stod til rådighed for en menneskelig spiller.

Og de siger selv, at den "nye" form for agenter styrkemæssigt var godt med i forhold til agenter, som spillede uden denne begrænsning. Jeg tror mere, at vi skal tilskrive sejren, at MaNa havde en bedre forståelse af, hvad han var oppe imod.

Det kan diskuteres, om det var et glitch, at han fik den til at rende frem og tilbage for at forsvare dens base igen og igen og igen, men det illustrerer måske i virkeligheden en af ovenstående pointer; hvis man kan se, at AI har en blind plet, så kan man regne med, at den bliver ved med at have det, og ikke stopper op og tænker "det er er godt nok dumt" (det er klart, at man kan formå at forskubbe balancen så meget, så AI overordnet set skifter strategi, men sålænge der man ikke når et sådant tipping point, så kan den være ret forudsigelig og manipulerbare (kort sagt, er den dum som en dør).

Men det virker som et frisk pust. F.eks. fik vi har udfordret tommelfingerreglen om, at man ikke skal forsøge at forcere en opadgående rampe. Det viste AI at man godt kunne, hvis man har overskuddet til det, og genvinsten opvejer tabet. Så AI er tydeligvis kommet langt længere ud i rummet af mulige strategier. Vi kan bruge AI til at udforske en større del af rummet for vores antagelser, og helt sikkert bruge det til at se nye muligheder, som vi ikke havde tiden eller modet til udforske ... det kræver investering at krave ud af et lokalt minimum; en investering som vi måske ikke har viljen eller tålmodigheden til.

Så det er tydeligt at AI kan noget, som vi ikke kan. Det er også tydeligt, at vi kan noget, som AI ikke kan.

Jeg ser det lidt ligesom vores forhold til hunde; de er udstyret med nogle nærmest superhelt-agtige sanser, og kan udføre ting, som vi aldrig vil kunne drømme om at opnå, men de kan nemt distraheres eller måske endda bevidst afledes. Det giver ikke mening at tale om, hvem som er bedst; vi er bedst sammen, og vi bliver nødt til at dække af for hundens svagheder; hvis vi lader hunden bestemme, så går det galt.

Det er meget imponerede, hvad DeepMind teamet har begået her - og det er imponerede hvad MaNa kan.

Jacob Mathiasen

er et APM tungt spil. Computeren har her en ekstrem fordel, hvis den ikke er begrænset af input hastigheden til at styre enheder, som mennesker er. De ting man kan gøre med units ved micromanagement med høj nok APM kan let være helt afgørende for spillet.

Men det er jo det - computere og mennesker er forskellige - så egenligt er jeg mest tilhænger af at computeren kan "se" hele "brædtet" på een gang samt ubegrænset styringshastighed, men, naturligvis ikke se igennem "fog of war".

Bjarne Nielsen

høj nok APM

AlphaStar havde efter sigende den laveste APM, med MaNa liggende højere, og TLO havde den højeste af alle APM (se denne illustration fra DeepMinds blogpost (linket fra artiklen): https://storage.googleapis.com/deepmind-live-cms/images/SCII-BlogPost-Fi...).

Man skal ikke undervurdere kvantitet, men der er åbenbart også et betydeligt element af kvalitet.

De var også kort inde på reaktionsevne, og AlphaStar havde en god reaktionsevne, men faktisk på et ganske menneskeligt niveau.

Asbjørn Ørrild

Jeg mener, at Deepmind folkene "oversælger" deres argument om at Alphastars lave APM (actions per minute) betyder at det er dens taktiske evner der er årsagen til sejren.. Når man ser kampene er det rigtigt nok at Alphastar i gennemsnit har lavere APM, men i flere af de afgørende "slag" har den op til 3-4 gange så høj APM.

Når et menneske spiller er der mange gentagelser, f. eks. når man markerer en enhed og derefter klikker der hvor man gerne vil have den til at bevæge sig hen, det sker ofte ved at klikke 3-4 gange for at sikre sig at det er det rigtige sted og at handlingen er gået "igennem".
Alt det betyder, at det som for Alphastar er 2 klik (actions) er for MaNa 4-5.

Set i det lys samtidigt med, at Alphastar i kamp 5, nogle afgørende tidspunkter, har over 1.400 APM mod MaNa's 4-500, er Deepmind's argument om, at deres begrænsning i APM betyder at det var Alphastars taktiske egenskaber der var afgørende for sejr simpelthen ikke rigtige.
Alphastar vinder flere at slagene ved samtidigt at styre så mange enkelt enheder pefekt, at et menneske simpelthen ikke har en chance selv med to identiske kampenheder.

Det kunne være spændende at se nogle kampe hvor den maksimale APM blev sænket til "menneskeligt" niveau.
Eller endnu bedre...hvis vi kunne få lov til at se Alphastar spille mod sig selv uden begræsninger.

Bjarne Nielsen

Ars Technica er nu kommet en artikel med kommentarer til begivenheden, og man er bl.a. inde på nogle af de samme aspekter som Asbjørn:

https://arstechnica.com/gaming/2019/01/an-ai-crushed-two-human-pros-at-s...

Det er åbenlyst at en del af sejren kan tilskrives (mangel på) fysiske og mekanisme begrænsninger på den ene side.

I øvrigt så har jeg gået og tænkt over det, og måske skal vi ikke udelukkende se dette som en kamp imellem AI og top-spillere, men også som en kamp imellem Googles team (med AI protese) og top-spillere.

Hvorfor? Jo, fordi at hele setup var lavet på en måde, så det ikke var ganske fair: spillerne fik ikke at vide, at de spillede imod fem forskellige strategier (hver), man starter med at lade en pro-spiller spille off-race, etc. Det virker som om at der var meget prestige på spil for teamet (og måske mere end bare det), og at der er gået en del menneskelig intelligens i at sikre en sejr (bevidst eller ubevidst).

Ikke for at tage noget af æren fra DeepMind teamet - det, som de har lavet, er seriøst imponerede - men jeg tror at vi bliver nødt også at anerkende, at der er mennesker på begge sider. Omend på den ene side mest er i trænerrollen, så er fingeraftrykket stadig betydende.

Log ind eller Opret konto for at kommentere