Google kombinerede neurale netværk for at vinde 4-1 i brætspillet Go

To læringsmetoder blev brugt til at oplære et neuralt netværk, som igen forbedrede den metode, computerne hidtil havde haft bedst held med i Go.

Googles AlphaGo-program endte med at vinde fire ud af de fem opgør mod verdensmesteren i brætspillet Go, sydkoreanske Lee Sedol.

Det er første gang, et computerprogram har vundet så overbevisende mod en topspiller i Go. Normalt har computeren kun kunnet spille lige op med dygtige amatører.

Læs også: Computer slog menneske i kinesisk brætspil

Hemmeligheden bag AlphaGo skal findes i en kombination af læringsmetoder for neurale netværk, som Google har brugt til at forbedre den metode, de fleste Go-programmer hidtil har brugt. Det beskriver Googles AI-forskere i en artikel i Nature.

Go-programmer har brugt metoden Monte Carlo Tree Search til at finde frem til de bedste træk. Det er begrænset, hvor dybt ned i træerne, algoritmen kan søge i den tid, der er til rådighed, så derfor er en del af 'magien' i de forskellige implementeringer, hvordan man finder frem til, hvilke grene i træet der fører til de bedste træk.

Det er denne del, Google har forbedret ved at bruge et neuralt netværk af typen deep convolutional network, som også bruges til eksempelvis ansigtsgenkendelse.

Google har dernæst først oplært netværket gennem supervised learning, hvor den er fodret med Go-træk, som menneskelige stormestre har foretaget i spillet. Det danner fundamentet. Derefter har Google oplært et reinforcement learning-netværk, som forbedres ved at lade programmet spille mod sig selv.

Endelig har Google oplært et value network, der har til formål at forudsige vinderen af de spil, programmet spiller mod sig selv. Det skal hjælpe med at finde et bud på et bedste træk.

For at finde frem til, hvordan AlphaGo klarede sig, har Google sat det op mod en række af de Go-programmer, der eksisterer. I sådan en kamp får computeren fem sekunder til at finde frem til et træk ud af et astronomisk højt antal kombinationer.

Testen viste, at ganske vist klarede AlphaGo sig udmærket, selv når den kun brugte et enkelt af sine neurale netværk, men kombinationen af flere netværk var bedst, fordi value-netværket kunne estimere udfaldet af det andet neurale netværks spil.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk

Kommentarer (0)

Log ind eller opret en konto for at skrive kommentarer