OpenAI: Evolutionær maskinlæring skalerer overraskende godt i arkadespil

En gammel teknik til oplæring af dybe neurale netværk har vist sig at være særdeles effektiv til visse problemer - som eksempelvis at spille arkadespil.

Når computeren slår dig i Pong eller en anden arkadeklassiker, så kan du give evolution skylden. Helt præcist har det ikke meget med biologisk evolution at gøre, men et gammelt forslag til optimering af modeller inden for kunstig intelligens har vist sig at være overraskende effektiv til oplæring i blandt andet arkadespil.

Kunstig intelligens eller machine learning handler i bund og grund om at finde de mest effektive måder at lade en softwarealgoritme prøve sig frem, indtil det lykkes den at løse en opgave. Men når man arbejder med algoritmer, hvor funktionen har én million parametre, så er det ikke ligegyldigt, hvordan man når frem til den bedste model.

Det koster nemlig regnekraft og tid, og derfor har forskerne hos OpenAI taget et ekstra kig på en metode kaldet Evolution Strategies.

Den går meget overordnet ud på at finde den bedste variant af en funktion alene ud fra kvaliteten af resultatet og inputtet.

Læs også: Kunstig intelligens: Evolution kan gøre neurale netværk kreative

Enkel og skalerer godt

Evolution Strategies kan ifølge OpenAI-forskerne være et alternativ til Reinforcement Learning, som er populær til oplæring af algoritmer inden for eksempelvis billedanalyse.

Evolution Strategies er ikke den bedste metode til alle formål, men fordi den er ret enkel, så kan den skalere ganske effektivt.

I stedet for at udveksle en komplet vektor med parametre mellem hver regneenhed, så kan man nøjes med nogle få skalarer, hvilket gør det nemmere at foretage parallelle beregninger.

En af de centrale forskelle på Reinforcement Learning og Evolution Strategies er, at i den første arbejder man med tilfældige mutationer af hver enkelt 'regel'.

I Evolution Strategies forsøger man at finde det optimale punkt for hver regel, så man skyder sig ind på den bedste værdi, lidt på samme måde som Newtons metode.

Det har altså vist sig at være en god metode til arkadespil, hvor inputtet er et billede. Algoritmen ser altså, hvad der sker på skærmen.

Nem succesmåling

Ligesom et menneske skal algoritmen så finde ud af, om det eksempelvis er bedst at gå til højre eller venstre. I et spil som eksempelvis Pong er det nemt at måle resultatet: Hvis algoritmen misser bolden, så dumper dén variant, men hvis bolden rammes, og den ryger forbi modstanderen, så er algoritmen på vej mod et optimum.

Forskellen mellem de to typer læring ligger i matematikken, og det er også derfor, at Evolution Strategies ikke altid er bedre end Reinforcement Learning.

Til gengæld er Evolution Strategies altså i visse tilfælde hurtigere at oplære, fordi udregningerne er enklere i kraft af, at algoritmen ikke evaluerer ved at se på, hvad der skete 'inde' i algoritmen, men blot på resultatet.

Ifølge OpenAI betød det i undersøgelsen af arkadespillene, at algoritmen kunne oplæres to til tre gange hurtigere med mindre kode, og det var ikke nødvendigt at gemme så mange data.

Læs også: Sådan lærte Google-algoritme sig selv at spille arkadespil

Undersøgelsen bestod blandt andet i test af 51 Atari 2600-spil, hvor algoritmerne blev oplært på én milliard frames fra hvert spil ved at køre parallelt på 720 processorer på Amazons EC2.

Der er et aber dabei

Metoden er ikke altid bedre - faktisk klarede Reinforcement Learning med metoden A3C worker sig bedre i 28 af spillene, men til gengæld var Evolution Strategies mere tolerant over for, hvor mange frames man sprang over i hver gennemkørsel.

Forskerne konkluderer altså, at Evolution Strategies er endnu en farbar vej inden for machine learning, som især har en fordel, hvis man har behov for at kunne parallelisere, når modellen skal oplæres.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (0)
Log ind eller Opret konto for at kommentere
Pressemeddelelser

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017

Affecto has the solution and the tools you need

According to GDPR, you are required to be in control of all of your personally identifiable and sensitive data. There are only a few software tools on the market to support this requirement today.
13. sep 2017