Gennemsigtighed i AI-algoritmer – hvad er problemet?

Den manglende gennemsigtighed i deep learning kræver mere samarbejde mellem faggrupper, skriver Thomas Moeslund, der er professor ved Aalborg Universitet og forsker i computer vision.


Deep Learning bliver ofte italesat som en Black Box-teknologi, der lidt sat på spidsen består af input, ”magi” og output.

Det skyldes, at Deep Learning-algoritmer er bygget op af flere mio. fire parametre i et system, og at man derfor er nødt til at beskrive sammenhængen mellem dem, hvis man virkelig vil forklare, hvordan algoritmen virker.

Det er en beskrivelsesopgave, som ikke umiddelbart er mulig, og det kan føre til en række problematikker om gennemsigtigheden i AI. Det gælder blandt andet mængden af påkrævet data for at træne Deep Learning-algoritmer og udfordringen ved at forstå, hvad de mange mio. parametre betyder hver især og i sammenhæng med hinanden.

Det startede med AlexNet

Inden vi går videre, er vi nødt til at forstå problematikken omkring ’gennemsigtighed’, og i den forbindelse kan vi kigge nærmere det berømte ’AlexNet’, der i 2012 blev startskuddet til den nuværende AI-bølge baseret på Deep Learning.

Netværket blev skabt til at behandle farvebilleder af størrelsen 224x224 pixels. Med tre farvekanaler i et billede betyder det, at input til netværket er 3x224x224 = 150.528 parametre.

AlexNet er som bekendt et kunstigt neuralt netværk der består af 7 lag af neuroner. Det første lag består af ca. 300.000 neuroner. Forbindes hver inputparameter med hver neuron i det første lag fås ca. 45 mia. forbindelser. Fortsættes disse udregninger for AlexNet, ender vi op med ca. 650.000 neuroner og ca. 120 mia. forbindelser. Som en fodnote bemærkes, at der ca. er 250.000 neuroner i hjernen på en myre, mens vi mennesker har ca. 100 mia. neuroner.

Hver af de 120 mia. forbindelser har en tilhørende vægt, der afgør, hvor vigtig denne forbindelse er i forhold til andre forbindelser, og det er disse vægte, som netværket skal lære, før det kan bringes til at virke. Eller med andre ord, når man taler om at træne en Deep Learning model, så handler det om at udregne værdierne af disse vægte ved brug af træningsdata.

I 2012 var det urealistisk at lære 120 mia. vægte og derfor reducerede man ved designet af AlexNet kraftigt dette tal. Kort fortalt så antog man, at den primære information omkring en enkelt pixel kan udtrækkes ved at sammenligne denne pixel med sine naboer.

Konkret blev en neuron i det første lag forbundet med de nærmeste 11x11 nabopixels i input. For at kompensere for denne antagelse, forbandt man de samme inputpixels (11x11) til i alt 96 forskellige neuroner i det første lag. Konsekvensen af dette er, at vi i stedet for de 45 mia. forbindelser mellem input og første lag nu ”kun” har ca. 35.000 forbindelser.

Ved brug af denne tilgang reduceres det samlede antal forbindelser i hele netværket fra 120 mia. til ”blot” 60 mio.

Med det på plads kan vi nu igen vende blikket mod gennemsigtigheden. Der er nemlig forskellige konsekvenser ved at have 60 mio. frie parametre i et system.

Den sorte boks

I princippet er der ikke noget galt med, at Deep Learning-algoritmer kan ende som Black Box-systemer, medmindre de ikke virker optimalt, da det så kan være svært at vide i hvilken retning man skal fortsætte sin R&D, eller – endnu værre – at systemerne bruges i kritiske situationer.

Mest klassisk er eksempler fra sundhedsforskning, hvor en Deep Learning algoritme kan trænes til at prædiktere bedre end lægen, men ikke kan forklares grundet de mange parametre. Hvis en algoritme fx forudser, at du skal dø inden for 2 uger kan det jo godt være, at du vil vide lidt om hvordan den er nået frem til den konklusion.

Fokus på sådanne scenarier forstærkes af regulativer som GDPR, der italesætter ’retten til en forklaring når der er brugt automatiske systemer til beslutninger der hidrører individet’. Ud af dette problemkompleks er sprunget XAI (Explainable AI) forskningsområdet, som nok på sigt skal afhjælpe problemet.

Men der findes allerede i dag XAI metoder, der ikke nødvendigvis forklarer en beslutning, men kan bruges som et ’sanity check’. Mest populære er metoder, som kan visualisere, hvilke input data der er mest betydende for en prædiktion. Et eksempel er vist i figuren.

Illustration: Thomas Moeslund

Illustration: Thomas Moeslund
Til venstre ses et retina billede. En AI algoritme trænes til at kunne analysere sådanne billeder for tegn på visse sygdomme. En XAI algoritme bruges til at udregne hvilke pixels der har mest indflydelse på AI algoritmens beslutning (den midterste figur). Til højre er XAI algoritmens output lagt oven på inputbilledet.

Tung træning

Generelt gælder det, at jo flere frie parametre, der er i et system, jo mere træningsdata skal der bruges for at lære disse. Dette gælder også for machine learning metoder som for eksempel Deep Learning. Så når der er 60 mio. frie parametre, skal der bruges rigtig meget træningsdata!

Det store spørgsmål er, hvor mange samples skal der bruges til at træne et specifikt system?

Svaret er simpelt, men desværre en smule ukonkret, nemlig at træningsdata skal indeholde den samme variation, som det problem, der modelleres. Det er altså ikke kun et spørgsmål om mængden af træningsdata. Det er også et spørgsmål om at have det rigtige træningsdata.

Dykker man lidt mere ned i dette, så er næste udfordring, at vi ofte forsøger at modellere forskellige fænomener på samme tid og derfor skal data også helst være balanceret, således at ét fænomen ikke dominerer et andet. Det er en overkommelig opgave med kun et par fænomener, men hvis vi igen kigger på AlexNet, så blev det netværk oprindeligt trænet og testet på 1000 forskellige klasser (fænomener), hvilket gør problemet noget mere kompliceret.

Vi har igen og igen set eksempler på, at Deep Learning netværk er trænet på for lidt eller for ubalanceret data, hvilket har resulteret i at fx ikke-kaukasiske ansigter er blevet genkendt som aber, etc. Dette har så ført til ofte ophedede kommentarer omkring diskrimination og bias.

Men faktisk er det ofte hverken algoritmen eller træningsdata, der har bias (med mindre man med bias mener ’ubalanceret data’) eller er diskriminerende. Problemet er nærmere for lidt eller for ubalanceret træningsdata.

Et mindst lige så stort problem er, hvis der faktisk er reel bias i data. Vi har vel alle hørt om studier, der viser, at visse manuelle beslutninger afhænger af tidspunktet på dagen eller ugen, hvor de træffes. Hvis sådanne data bruges til at træne en Deep Learning algoritme, så vil algoritmen vægte tidspunkt som betydende information lige meget hvor meget data vi giver algoritmen – reel bias.

Tilbage til kongstanken

Der er endnu ikke én god og robust måde at vurdere den påkrævede mængde af træningsdata og således en iboende ugennemsigtighed i sammenhængen mellem træningsdata og slutresultat.

Den nuværende anbefaling er at ty til den oprindelige kongstanke i machine learning, nemlig at lave systemer, der generaliserer, hvilket bedst understøttes ved at træne og teste på to uafhængige dataset.

Står man med en situation, hvor der ganske enkelt ikke kan skaffes nok træningsdata, så hedder løsningen i øjeblikket Transfer Learning. Ideen er, at de første neuroner i et neuralt net ca. er ens i to applikationer som minder om hinanden, og derfor kan man genbruge en stor del af neuroner og vægte mellem applikationer.

Arbejder du fx med at genkende billeder af rustpletter, så kan du sikkert komme rigtig langt ved at genbruge fx de første 5 lag i AlexNet og så kun træne de sidste 2 lag. Det betyder færre frie parametre og derfor behøves ikke nær så mange træningsbilleder med rust.

Slutteligt en mere generel anbefaling der udspringer af min personlige kæphest, nemlig at gennemsigtighed i AI algoritmer kræver en tværfaglig tilgang.

Der har været mange fine overvejelser fra etikere, filosoffer og meningsdannere omkring behovet for at moral & etik indlejres i AI løsninger. Set fra et algoritmisk perspektiv kan disses anbefalinger være en smule for generelle og derfor i praksis svære at implementere.

Omvendt har der også været mange tekniske XAI løsninger, som måske er lidt for ”tekniske” og derfor ikke nødvendigvis svarer på de rette spørgsmål og således ikke er brugbare.

Der er derfor et udtalt behov for mere tværfagligt samarbejde når de rigtige løsninger til gennemsigtighed i AI algoritmer skal udvikles.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (0)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere