Sådan lærte Google-algoritme sig selv at spille arkadespil

Googles DeepMind-computer har trænet sig selv i at spille Atari-spil ved at aflæse skærmbilleder.

Ved at aflæse pixels på computerskærmen har Googles DeepMind-computer lært sig selv at spille 49 gamle Atari-spil. Lært sig selv? Ja – stort set.

Hvor en skakcomputer er forhåndsfodret med kendte og oplagte strategier, og IBM’s Jeopardy­spillende Watson-maskine blev fodret med paratviden, var DeepMind-computerens startgrundlag temmelig beskedent: Den fik skærmens pixels og pointsystem at kigge på, en række antagelser, og så blev den ellers sendt ud på de vilde vover selv.

Efter få ugers træning var computeren allerede så garvet, at den i næsten halvdelen af spillene performede bedre end en menneskelig spiller.

Selv om de grundlæggende metoder er set før på enkelte spil, er professor i kognitive systemer på DTU Compute Lars Kai Hansen alligevel imponeret over, at det er lykkedes forskerne at genbruge samme algoritme, arkitektur og hyperparametre på så forskellige spil som Boxing, Space Invaders og Pong.

»Der er virkelig tale om en milepæl inden for kunstig intelligens,« siger han.

To typer maskinlæring

Årsagen til, at det er lykkedes for forskerne at få computeren til at excellere på tværs af de mange spil uden forhåndsviden om hvert enkelt, skal findes i en succesrig kombination af to typer maskinlæring – nemlig ‘deep learning’ og ‘reinforcement learning’.

Deep learning består af et ­Deep Convolutional-neuralt netværk, hvilket typisk bruges i billedgenkendelsessoftware. Det er baseret på viden om, hvordan den menneskelige synsbark fungerer og øges gennem flere lag abstraktionsniveauet i de enkelte skærmbilleder.

På den måde kommer figurerne til at fremstå som generelle koncepter, som computeren kan bruge til at udføre en handling ud fra, og de koncepter vil i sidste ende minde meget om hinanden, selv om de stammer fra forskellige spil.

Afprøver nye handlinger

Den gren af reinforcement learning, der giver computeren – eller agenten – sine erfaringer, som kan bruges til nå høje pointsummer, er en ny variant af såkaldt Q-læring, hvor man lærer agenten, hvilken værdi bestemte handlinger har. Når den er fundet, noterer DeepMind sig, hvornår det skete, så den kan vende tilbage til den, hvis den viser sig værdifuld. Samtidig går den stadig på opdagelse og prøver nye handlinger af.

Og det er her, vi finder noget af det virkelig spændende, fortæller Lars Kai Hansen. Det er nemlig forskernes tilførte ‘experience replay’-algoritme, som sørger for, at computeren – eller agenten – kan lægge en egentlig strategi.

Genbruger gode strategier

Han bruger spillet Breakout som eksempel, hvor en bold skal hoppe op og fjerne murstene øverst i skærmbilledet. Her fandt agenten under sine prøveskud ud af, at hvis bolden formåede at lave et hul i muren, så den kunne angribe muren oppefra, så kunne den nærmest fjerne hele det øverste lag af muren.

»Spillede agenten naivt og grådigt, ville den bare skyde løs og gå efter hurtige point. Men ved at bruge replay tager agenten fat i en strategi, der måske ved et tilfælde tidligere har givet gode point, og genbruger den, hvis der opstår en lignende situation igen,« siger han og fortæller, at et af de sværeste problemer at løse i kontrolteori er at undgå, at agenten spilder tiden, når den søger ny viden.

»Her forkorter de tiden ved at bruge experience replay, og netværkets parametre ændrer sig så løbende som et lille barn, indtil det er perfekt. Jeg tror, at det har været svært at få det til at gå så hurtigt, og det synes jeg, er deres største bedrift.«

Lars Kai Hansen vurderer, at der er mange muligheder for et sådant dybt neuralt netværk, bl.a. en mulighed for Google til at bruge teknologien i deres selvkørende biler.

»Netværket kunne selv tage højde for usædvanlige situationer i trafikken, som den måske har lært fra andre Google-biler. Man kunne også forestille sig, at de neurale netværk kunne bruges til at lære mere om Googles brugere, så de kunne modtage gode råd i givne situationer,« siger han.

Se Deep Mind lære at spille Pong (Video lånt fra

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (1)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize