Mand med laptop får neuralt netværk til at gætte, hvad den forbløffede fyr spiser
Det virker næsten som en baby, der er ved at lære, hvordan verden ser ud.
Forskellen er, at der ikke er tale om et menneske i kød og blod, men om en laptop med et webcam og open source-programmet NeuralTalk2 installeret.
I en video går kunsteren Kyle McDonald rundt i Amsterdams gader, som han filmer direkte på sin laptop, som omgående beskriver det, som den ‘ser’.
Fakta: NeuralTalk2 Et open source-program, der bruger neurale netværk til at beskrive, hvad der sker på billeder. Skrevet i letvægter-scripting-sproget Lua og kører på machine learning-platformen Torch. Det kan afvikles på en enkelt computer og bruger grafikkortet til de krævende udregninger. Samlet tager det omkring 2-3 dage at træne programmet til at opnå en en god forståelse af en model. Programmet kommer også med et par præ-trænede modeller og er udviklet hos Google og Stanford University.
‘A man is walking down the street with a suitcase’, skriver programmet i videoen, som kan ses i bunden af artiklen. Der er ganske vist tale om en pose og ikke en kuffert i optagelserne, så programmet rammer ikke altid hovedet på sømmet. Nogle gange skyder det helt forbi.
Men i flere tilfælde gætter det faktisk helt rigtigt på, hvad der bliver filmet. Eksempelvis rammer det helt plet, da kunstneren går forbi en ung mand, der er i færd med at spise en hotdog.
‘A man is eating a hotdog in a crowd’, skriver programmet prompte.
Programmet NeuralTalk er lavet af den amerikanske ph.d.-studerende fra Stanford University Andrej Karpathy, som også arbejder med kunstig intelligens for Google på selskabets hemmelighedsfulde DeepMind-projekt.
Det er baseret på machine learning-systemet Torch, som også Facebook bruger, og som er blevet oplært til at kunne genkende tilbagevendende mønstre i billeder og beskrive dem med ord.
På Github kan man se et eksempel, hvor programmet endda er i stand til at genkende og beskrive ‘en kage med et stykke skåret ud’.
Kyle McDonald har brugt en særlig udgave af NeuralTalk2, der er blevet optimeret til et webcam. Det mest imponerende er nok, at al processeringen foregår lokalt på computeren, der er en Macbook Pro med grafikkortet Nvidia 750M med kun 2 GB hukommelse på grafikprocessoren.
Det er uden tvivl kun et spørgsmål om tid, før opfindelsen bliver brugt til mere end blot at gå ned ad gaden og filme forbipasserende med hotdogs for sjov. Det kræver ikke meget fantasi at forestille sig, hvordan teknologien kan bruges til hurtigt at lave tekstsøgninger på indholdet i tusindvis af timer af optagelser fra eksempelvis overvågningskameraer.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.