Software er allerede i stand til ganske avanceret analyse af billeder, hvilket de fleste eksempelvis stifter bekendtskab med ved ansigtsgenkendelse. Men det er en større udfordring for softwaren at sætte ord på, hvad et billede forestiller, ud over hvad der lige er på selve billedet.
Nu har et forskerhold fra Microsofts afdeling i Beijing i Kina som de første slået den menneskelige rekord i korrekt at sætte ord på billeder fra billedarkivet ImageNet. Menneskelige forsøgspersoner har en fejlrate på 5,1 procent, men nu har Microsofts hold presset softwaren ned på 4,94 procent.
Microsofts software er baseret på 'deep convolutional neural networks', der er en særlig variant af neurale netværk, som er særligt velegnede til billedanalyse.
Selvom algoritmen samlet set klarede sig bedre end mennesker i testen, så er forskerne ikke helt i mål. Der er nemlig stadig typer af billeder, hvor softwaren ikke kan forstå det samlede motiv eller den rette sammenhæng, men i stedet hæfter sig ved en irrelevant detalje eller ikke er tilstrækkelig specifik.
»Selvom vores algoritme giver et bedre resultat på dette datasæt, så er det ikke en indikation på, at maskinsyn overgår menneskets syn generelt. Maskiner begår stadig åbenlyse fejl i tilfælde, hvor det er trivielt for mennesker,« siger leder af forskningsholdet Jian Sun fra Microsoft ifølge en pressemeddelelse.
Generelt er mennesker bedre til eksempelvis at skelne mellem et får eller en ko på et billede, mens computeren er bedre til at skelne mellem eksempelvis to fåreracer.
Microsoft er nu i færd med at overføre erfaringerne fra forskningsprojektet til billedanalysealgoritmerne i søgemaskinen Bing og Microsofts cloud-lagringstjeneste OneDrive.
