OpenAI: Evolutionær maskinlæring skalerer overraskende godt i arkadespil

En gammel teknik til oplæring af dybe neurale netværk har vist sig at være særdeles effektiv til visse problemer - som eksempelvis at spille arkadespil.

Når computeren slår dig i Pong eller en anden arkadeklassiker, så kan du give evolution skylden. Helt præcist har det ikke meget med biologisk evolution at gøre, men et gammelt forslag til optimering af modeller inden for kunstig intelligens har vist sig at være overraskende effektiv til oplæring i blandt andet arkadespil.

Kunstig intelligens eller machine learning handler i bund og grund om at finde de mest effektive måder at lade en softwarealgoritme prøve sig frem, indtil det lykkes den at løse en opgave. Men når man arbejder med algoritmer, hvor funktionen har én million parametre, så er det ikke ligegyldigt, hvordan man når frem til den bedste model.

Det koster nemlig regnekraft og tid, og derfor har forskerne hos OpenAI taget et ekstra kig på en metode kaldet Evolution Strategies.

Den går meget overordnet ud på at finde den bedste variant af en funktion alene ud fra kvaliteten af resultatet og inputtet.

Læs også: Kunstig intelligens: Evolution kan gøre neurale netværk kreative

Enkel og skalerer godt

Evolution Strategies kan ifølge OpenAI-forskerne være et alternativ til Reinforcement Learning, som er populær til oplæring af algoritmer inden for eksempelvis billedanalyse.

Evolution Strategies er ikke den bedste metode til alle formål, men fordi den er ret enkel, så kan den skalere ganske effektivt.

I stedet for at udveksle en komplet vektor med parametre mellem hver regneenhed, så kan man nøjes med nogle få skalarer, hvilket gør det nemmere at foretage parallelle beregninger.

En af de centrale forskelle på Reinforcement Learning og Evolution Strategies er, at i den første arbejder man med tilfældige mutationer af hver enkelt 'regel'.

I Evolution Strategies forsøger man at finde det optimale punkt for hver regel, så man skyder sig ind på den bedste værdi, lidt på samme måde som Newtons metode.

Det har altså vist sig at være en god metode til arkadespil, hvor inputtet er et billede. Algoritmen ser altså, hvad der sker på skærmen.

Nem succesmåling

Ligesom et menneske skal algoritmen så finde ud af, om det eksempelvis er bedst at gå til højre eller venstre. I et spil som eksempelvis Pong er det nemt at måle resultatet: Hvis algoritmen misser bolden, så dumper dén variant, men hvis bolden rammes, og den ryger forbi modstanderen, så er algoritmen på vej mod et optimum.

Forskellen mellem de to typer læring ligger i matematikken, og det er også derfor, at Evolution Strategies ikke altid er bedre end Reinforcement Learning.

Til gengæld er Evolution Strategies altså i visse tilfælde hurtigere at oplære, fordi udregningerne er enklere i kraft af, at algoritmen ikke evaluerer ved at se på, hvad der skete 'inde' i algoritmen, men blot på resultatet.

Ifølge OpenAI betød det i undersøgelsen af arkadespillene, at algoritmen kunne oplæres to til tre gange hurtigere med mindre kode, og det var ikke nødvendigt at gemme så mange data.

Læs også: Sådan lærte Google-algoritme sig selv at spille arkadespil

Undersøgelsen bestod blandt andet i test af 51 Atari 2600-spil, hvor algoritmerne blev oplært på én milliard frames fra hvert spil ved at køre parallelt på 720 processorer på Amazons EC2.

Der er et aber dabei

Metoden er ikke altid bedre - faktisk klarede Reinforcement Learning med metoden A3C worker sig bedre i 28 af spillene, men til gengæld var Evolution Strategies mere tolerant over for, hvor mange frames man sprang over i hver gennemkørsel.

Forskerne konkluderer altså, at Evolution Strategies er endnu en farbar vej inden for machine learning, som især har en fordel, hvis man har behov for at kunne parallelisere, når modellen skal oplæres.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk

Kommentarer (0)

Log ind eller opret en konto for at skrive kommentarer

Pressemeddelelser

Big Data Lake Summit: Fast and Trusted Insights

If you want to outpace, outsmart and outperform your competition in a digital world, you need trusted data that can be turned into actionable business insights at speed.
24. apr 15:06

Welcome to Free course to learn about the combined power of Alteryx and Qlik!

Affecto invites to a free course, where we want to share our knowledge of this self-service analysis platform together with the power of Qlik.
20. apr 2017

Robotics Process Automation (RPA) changes the way organizations think about and perform work at a reduced cost, higher efficiency and greater productivity

Join us for this exiting seminar, which Affecto hosts with our business partner SmartRPA May 3rd, 2017 at 13.00 in Copenhagen.
30. mar 2017