Microsoft går ekstra dybt med neuralt netværk med 152 lag

Microsofts neurale netværk indeholder 20 gange flere lag end almindelige dybe neurale netværk og har netop vundet en konkurrence for computersyn.

Den bedste algoritme til at genkende en banjo eller en blåskimmelost på et vilkårligt foto er lige nu Microsofts 'deep residual network', som har vundet konkurrencen for computerdrevet billedgenkendelse, ImageNet. Men faktisk er der tale om et uhørt komplekst neuralt netværk, skriver Wired.

Microsoft benytter maskinlæringsmetoden deep learning, hvor flere lag af algoritmer bruges til eksempelvis at genkende bestemte objekter på billeder. Normalt anvender denne type neurale netværk seks eller syv lag - i visse tilfælde op til 30 lag - men Microsofts netværk benytter hele 152 lag.

Normalt vil det ikke være en fordel at anvende så mange lag, fordi signalet så at sige bliver mudret til undervejs gennem lagene. Microsoft har løst dette problem ved at implementere metoder til at springe visse lag over, som ikke er nødvendige for den aktuelle kørsel.

»Når du springer over lag på denne måde, så bevarer du signalstyrken meget længere, og det viser sig at have en enorm positiv indvirkning på præcisionen,« siger forskningschef Peter Lee fra Microsoft Research til Wired.

Læs også: Maskinlæring er en forlængelse af hjernen

En anden udfordring ved så stort et antal lag er arbejdet ved at udvælge de specifikke algoritmer i hvert lag. Her har Microsoft brugt en teknik, som er blevet mere almindelig for dybe neurale netværk, nemlig at give netværket et bedste bud på et sæt algoritmer og derefter lade det afprøve forskellige varianter for at finde frem til en konfiguration, der giver de bedste resultater.

Læs også: Microsoft frigiver API til at måle følelser ud fra ansigter

Teknikkerne har været kendt længe inden for feltet, men de er gjort mulige i praksis takket være muligheden for at afvikle algoritmerne på grafikprocessorer, som gør det muligt at oplære det neurale netværk på enorme datasæt.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (4)
Thomas Skipper

Vil det sige at man på et tidspunkt slipper for at skrive en bunke keywords til ens billeder, men kan nøjes med at skrive (eller sige?) "find alle mine vejskilte billeder"?

Eller at den autoindsætter keywords (helst danske) ud fra hvad den kan se på et billede. Fx "blå, natur, vand, dyr".

Martin Storgaard Dieu

Du kan allerede gøre noget ligende direkte i Google:
1. https://images.google.com/
2. Tryk på kameraet
3. Indsæt url (eller upload), fx: http://img.bedrebilist.dk/RoadSigns/DK/KAT_FT_ADV_A1.png
4. Se dens resultater. For mig gættede den på keywords: "crossroads road sign" med ovenstående søgning
Det er langt fra perfekt, men det går hurtigt i den retning

Gert G. Larsen

Hvis I ikke kender den gratis app CamFind endnu, og synes billedgenkendelse er sjovt/brugbart, så tjek den ud. Det er helt vildt så godt den kan detektere ting.
(Husk billedet bliver uploadet i "skyen", så tænk over hva I tager billeder af..)

Log ind eller Opret konto for at kommentere
Pressemeddelelser

Welcome to the Cloud Integration Enablement Day (Bring your own laptop)

On this track, we will give you the chance to become a "Cloud First" data integration specialist.
15. nov 2017

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017