Microsoft går ekstra dybt med neuralt netværk med 152 lag

Microsofts neurale netværk indeholder 20 gange flere lag end almindelige dybe neurale netværk og har netop vundet en konkurrence for computersyn.

Den bedste algoritme til at genkende en banjo eller en blåskimmelost på et vilkårligt foto er lige nu Microsofts 'deep residual network', som har vundet konkurrencen for computerdrevet billedgenkendelse, ImageNet. Men faktisk er der tale om et uhørt komplekst neuralt netværk, skriver Wired.

Microsoft benytter maskinlæringsmetoden deep learning, hvor flere lag af algoritmer bruges til eksempelvis at genkende bestemte objekter på billeder. Normalt anvender denne type neurale netværk seks eller syv lag - i visse tilfælde op til 30 lag - men Microsofts netværk benytter hele 152 lag.

Normalt vil det ikke være en fordel at anvende så mange lag, fordi signalet så at sige bliver mudret til undervejs gennem lagene. Microsoft har løst dette problem ved at implementere metoder til at springe visse lag over, som ikke er nødvendige for den aktuelle kørsel.

»Når du springer over lag på denne måde, så bevarer du signalstyrken meget længere, og det viser sig at have en enorm positiv indvirkning på præcisionen,« siger forskningschef Peter Lee fra Microsoft Research til Wired.

Læs også: Maskinlæring er en forlængelse af hjernen

En anden udfordring ved så stort et antal lag er arbejdet ved at udvælge de specifikke algoritmer i hvert lag. Her har Microsoft brugt en teknik, som er blevet mere almindelig for dybe neurale netværk, nemlig at give netværket et bedste bud på et sæt algoritmer og derefter lade det afprøve forskellige varianter for at finde frem til en konfiguration, der giver de bedste resultater.

Læs også: Microsoft frigiver API til at måle følelser ud fra ansigter

Teknikkerne har været kendt længe inden for feltet, men de er gjort mulige i praksis takket være muligheden for at afvikle algoritmerne på grafikprocessorer, som gør det muligt at oplære det neurale netværk på enorme datasæt.

Følg forløbet

Kommentarer (4)

Thomas Skipper

Vil det sige at man på et tidspunkt slipper for at skrive en bunke keywords til ens billeder, men kan nøjes med at skrive (eller sige?) "find alle mine vejskilte billeder"?

Eller at den autoindsætter keywords (helst danske) ud fra hvad den kan se på et billede. Fx "blå, natur, vand, dyr".

Gert G. Larsen

Hvis I ikke kender den gratis app CamFind endnu, og synes billedgenkendelse er sjovt/brugbart, så tjek den ud. Det er helt vildt så godt den kan detektere ting.
(Husk billedet bliver uploadet i "skyen", så tænk over hva I tager billeder af..)

Log ind eller opret en konto for at skrive kommentarer

JobfinderJob i it-branchen