Ny ballade om deep learning: Algoritmer dumper i efterprøvning
Næsten alle af 18 deep learning-algoritmer indenfor et bestemt felt, som i de seneste år har været fremlagt på de fineste videnskabelige konferencer, viser sig at have store problemer, når det kommer til stykket.
Kun syv af algoritmerne er mulige at reproducere med en fornuftig indsats.
Af disse klarer seks sig ringere end blot en simpel algoritme med tommelfingerregler.
Kun én af de 18 algoritmer giver klart bedre resultater end med de simple metoder.
Det fremgår af en ny videnskabelig artikel med titlen: ‘Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches’ skrevet af forskerne Maurizio Ferrari Dacrema, Paolo Cremonesi og Dietmar Jannach fra italienske og østrigske universiteter.
Deep learning er den foretrukne metode
Deep learning er en populær machine learning-tilgang, hvor der benyttes neurale netværk med mange såkaldte skjulte lag. Teknikken har især givet resultater indenfor visuel genkendelse, som det ikke har været muligt at opnå med andre slags algoritmer.
De tre forskere har set nærmere på problemet ‘top-n recommendation.’
Det er ganske simpelt den algoritme, der benyttes, når en kunde på et site som Amazon får anbefalinger af produkter, som algoritmen gætter på, at kunden vil være interesseret i. Problemet løses som regel ved at se på, hvad andre brugere på sitet, som også ligner kunden, tidligere har kigget på.
»Deep learning-teknikker er blevet den foretrukne metode for forskere, der arbejder med algoritmiske aspekter af anbefalingssystemer,« skriver forskerne i artiklen.
»Med den stærkt øgede interesse for machine learning generelt er det blevet svært at holde styr på det nyeste på området, for eksempel i forbindelse med top-n recommendation-opgaver. Hertil kommer, at flere nylige artikler påpeger problemer i dagens forskningspraksis i anvendt maskinlæring, for eksempel reproducerbarheden af resultaterne eller valg af sammenligningsgrundlag, når man foreslår nye modeller.«
ITU-forsker: Deep learning giver nemmere adgang til tidsskrifter
De tre forskeres generelle konklusioner genkendes af Sebastian Risi, som er adjunkt ved IT-Universitetet og ekspert i deep learning og kunstig intelligens. Han siger:
»I almindelighed er det meget vigtigt at overveje reproducerbarhed. I en masse aktuel forskning i machine learning er det undertiden svært at reproducere de resultater, som forskere har offentliggjort. Det vigtigste trin er, at alle skal stille deres kode til rådighed, så resultaterne let kan reproduceres. Det er noget, som visse konferencer bevæger sig hen imod ved at gøre det obligatorisk at offentliggøre koden.«
Han forsætter:
»Mange forskere bruger deep learning som et buzzword i artikler, fordi det er mere sandsynligt, at din artikel bliver accepteret i et tidsskrift, hvis du bruger fancy, sexede ord som 'deep learning' i stedet for at sige, at du brugte en meget enkel model, og du opnåede den samme ydeevne. Dette er et betydeligt problem lige nu. Folk bruger komplekse modeller, før de overvejer enkle modeller, der måske har samme ydelse. Det lyder bedre, hvis du siger, at du bruger deep learning end en simpel lineær klassifikation, der i visse tilfælde kan opnå den samme ydelse.«
Det er forbundet med den aktuelle hype omkring kunstig intelligens, mener Sebastian Risi. Alle taler om deep learning, så hvis man ønsker, at ens forskning skal nævnes, hjælper det at have begrebet med i titlen i ens forskningsartikel.
Men det skaber ikke bedre forskning, lyder synspunktet.
Reproducerbarhedskrisen
Det har gennem flere år været en bekymring, at mange tekniske, naturvidenskabelige og andre kvantitative forskningsresultater ikke lader sig reproducere.
Bekymringerne kom blandt andet til udtryk, da den amerikanske biofarmaceutiske virksomhed Amgen ville efterprøve banebrydende forskningsresultater, der var beskrevet i 53 videnskabelige artikler. De kunne kun bekræfte resultaterne i seks af artiklerne.
»Det var et chokerende resultat,« skrev en tidligere forskningsleder for Amgen i tidsskriftet Nature i 2012.
Læs også: Ingeniøren: Over halvdelen af hundrede resultater kunne ikke reproduceres
Det er også kendt, at forskning i kunstig intelligens og machine learning lider under dette problem.
Sidste år skrev tidsskriftet Science, at en stikprøve på 400 algoritmer præsenteret på to konferencer om kunstig intelligens viste, at kildekoden bag algoritmen kun var offentliggjort i seks procent af tilfældene. I kun en tredjedel af tilfældene var det offentliggjort, hvilke data algoritmen var testet op imod. For halvdelen af algoritmerne i stikprøven havde forskerne kun fremlagt pseudokode, som er et sammendrag af en algoritme.
Læs også: Ingeniøren: Skjult kode gør det umuligt at gentage studier i kunstig intelligens
»Jeg tror, at mange uden for vores forskningsmiljø antager, at reproduktion altid en mulighed, fordi vi bruger kode. Sådan er det langtfra,« udtalte Nicolas Rougier, som er tilknyttet Frankrigs nationale institut for datalogisk forskning, i den forbindelse til Science.
Behov for mere stringens og bedre forskningspraksis
De tre forskere slår i den nye artikel fast, at problemet har eksisteret i mange år. Allerede i 2009 viste en analyse, at noget ikke stemte med de resultater, som ny forskning kom med. Det på trods af, at der fortsat blev offentliggjort mange forskningsartikler på området.
I den nye artikel påpeger forskerne en række en faktorer, som bidrager til denne tendens.
Det drejer sig om tyndbenede sammenligningsgrundlag, der ikke reelt udfordrer deep learning-algoritmerne, samt vanskeligheder med at sammenligne og gengive resultater på tværs af forskningsartikler.
Forskerne har stillet to spørgsmål: I hvilken grad kan de nye resultater reproduceres med en fornuftig indsats, og i hvor høj grad er samme resultater egentlig en forbedring sammenlignet med simple, men finjusterede metoder?
Konklusionen er, som tidligere nævnt, at det ofte er svært at reproducere resultater, og at de simple metoder tit giver resultater, der er lige så gode som med deep learning.
Derfor er der også behov for mere stringens og bedre forskningspraksis i forhold til en faglig vurdering af algoritme-forskning på dette område, lyder forskernes anbefaling.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.