Amerikansk algoritme-sjusk kan have medført droneangreb på uskyldige

Amerikansk machine learning-software, der automatisk identificerer potentielle terrorister, bliver af ledende forsker kritiseret for at være noget »forbandet vrøvl«.

Krigen mod terror er på mange måder blevet automatiseret med førerløse dræberdroner og det amerikanske Skynet-program, der via machine learning automatisk identificerer potentielle terrorister ud fra metadata.

Oplysningerne fra Skynet hjælper USA med at iværksætte droneangreb, der i Pakistan alene har dræbt mellem 2.500 og 4.000 personer siden 2004.

Skynet-programmet bruger metadata fra de mobile netværk i Pakistan til at identificere potentielle terrorister ud fra blandt andet daglige rutiner, sociale netværk og rejseadfærd.

Nu viser det sig, at softwaren i Skynet - der kan have været i udvikling siden 2007 - er videnskabeligt uholdbar ifølge it-forsker og direktør for Human Rights Data Analysis Group, Patrick Ball, som har udtalt sig til det amerikanske medie Ars Technica.

Grundlæggende er Skynet’s machine learning til automatisk at identificere potentielle terrorister sjusket udført ved blandt andet at basere sig på et alt for tyndt datagrundlag, lyder kritikken.

I sidste ende kan det skade kvaliteten af softwarens resultater og dermed nøjagtigheden af, hvem der klassificeres som ‘terrorist’ og bliver snigmyrdet, fortæller Patrick Ball til Ars Technica.

For god ordens skyld skal det nævnes, at det ikke er offentligt kendt, hvordan efterretningstjenesterne NSA og CIA bruger resultaterne fra Skynet, og hvad der ellers kræves for, at et droneangreb iværksættes.

NSA træner antiterrorist-software med datagrundlag fra kun 7 terrorister

Machine learning er et velkendt fænomen, som vi støder på i hverdagen, når vi f.eks. skal skrive et email-svar i Gmail’s Inbox-tjeneste. Emailtjenesten er i dag i stand til at forudsige, hvilke sætninger vi vil skrive som svar og foreslår dem, når man trykker ‘reply’.

Og det ved den fordi den har analyseret på millioner af emails, og hvad modtagerne efterfølgende har svaret.

Nogle af variablerne som NSA udleder af metadata og bruger til at identificere potentielle terrorister.

Kort sagt går machine learning således ud på at lære computere mønstre for, hvordan de skal agere ud fra store datamængder.

Vis en computer tusind forskellige billeder af en kat, og den vil ved hjælp af machine learning automatisk kunne identificere katte på helt nye billeder, som den ikke har set før.

Det er samme princip, som NSA bruger til at ‘træne’ Skynet-softwaren i at identificere potentielle terrorister.

Datagrundlaget kan i dette eksempel sammenlignes med det, som teleselskaberne i Danmark henter med telelogningen - dvs. metadata fra mobilnetværket, såsom tidspunkt og varighed af opkald, afsender, modtager samt fysisk lokation.

Men hvor den danske telelogning kun gælder i Danmark, så tærer amerikanske Skynet på data fra over 55 millioner pakistaneres brug af deres mobiltelefon, afslørede det amerikanske undersøgende medie The Intercept i maj 2015.

Ud fra disse data har NSA defineret 80 variabler, som kan være med til at identificere en potentiel terrorist. Skifter man eksempelvis ofte sim-kort på mobiltelefonen, slukker og tænder mobilen tit eller rejser gentagne gange til områder forbundet med terrorist-aktivitet, så er det med til at klassificere dig som en potentiel terrorist i Skynet.

Et af hovedproblemerne i softwaren er dog ifølge Patrick Ball de data, som NSA bruger til at lære Skynet, hvordan den skal identificere en terrorist.

NSA har ifølge de lækkede slides fra The Intercept kun benyttet sig af metadata fra seks kendte terrorister som udgangspunkt for at teste Skynet-modellen. Algoritmerne skulle efterfølgende forsøge at identificere en syvende terrorist gemt i en gruppe af 100.000 tilfældigt udvalgte personer.

Dette er dog slet ikke nok til at sikre en videnskabeligt velfunderet statistisk analyse ifølge Patrick Ball, der kalder evalueringen for noget »forbandet vrøvl« eller »complete bullshit« på godt gammelt engelsk, hvis modellen baserer sig på samme datagrundlag til at blive trænet.

Journalist blev fejlagtigt identificeret som terrorist

NSA træder forkert flere gange i deres evaluering af Skynet ifølge Patrick Ball.

For det første er der relativt få kendte terrorister, som NSA kan basere deres datasæt og algoritmer på. Derfor er det også relativt usandsynligt, at systemet vil fange andre ukendte terrorister, da de let kan adskille sig mærkbart fra de kendte eksempler.

Al Jazeera-journalist Ahmed Zaidan blev fejlagtigt kategoriseret som terrorist og Al-Qaeda medlem af Skynet.

Ved at bruge et snævert datagrundlag øger det risikoen for såkaldte falske positiver, dvs. uskyldige personer som bliver identificeret som terrorister.

NSA har ifølge Ars Technica brugt en random forest machine learning-algoritme, der benytter sig af tilfældige sæt fra træningsdata til at skabe en skov af beslutnings-’træer’.

Hvert træ kommer med en forudsigelse ud fra de 80 variabler og gennemsnittet af disse udgør således den samlede karakter for, hvor sandsynligt det er, vedkommende er en terrorist. Ikke ulig metoden fra spamfiltre.

NSA’s evaluering baserer sig på en 50 pct. rate af falske negativer - det vil sige, at i halvdelen af tilfældene vil en terrorist blive klassificeret som uskyldig.

Omvendt betyder den pågældende rate, at systemet ifølge NSA vil betegne en uskyldig som terrorist i 0,18 pct. af tilfældene.

For et spamfilter er denne fejlrate sandsynligvis ganske tilfredsstillende. Men når der er tale om viden, der skal være med til at retfærdiggøre ubemandede droneangreb, kan det potentielt være katastrofalt.

Det er ikke offentligt kendt, hvilken fejlrate som Skynet aktuelt opererer med. Men tager man udgangspunkt i de ovenstående lækkede tal fra NSA’s interne evaluering, så vil det i en befolkningsgruppe på 55 millioner resultere i, at 99.000 fejlagtigt bliver identificeret som terrorister.

Selv med efterretningstjenestens mest optimistiske fejlrate på 0,008 pct. vil 4.400 mennesker blive fejlkategoriseret.

Det er da også set, at Skynet har taget fejl - endda med et eksempel, som NSA fremhævede som en succes.

En af de personer i Pakistan, der ifølge Skynet var mest tilbøjelig til at være terrorist, er det arabiske nyhedsmedie Al-Jazeeras bureau-chef Ahmed Zaidan.

Han kom i softwarens søgelys, fordi han ofte rejser til områder med terrorist-aktiviteter for at interviewe oprørere for Al-Jazeera. Alligevel blev eksemplet fremhævet af NSA’s ingeniører, der påpegede Skynets overlegenhed, selvom softwaren fejlagtigt havde identificeret Zaidan som medlem af både Al-Qaeda og det Muslimske Broderskab.

Følg forløbet

Kommentarer (5)

René Nielsen

At kalde den slags software for Skynet!

Skynet var i 1990 ’erne en kunstig intelligens som i Terminator-filmene opnåede selvbevisthed og derpå gik i gang med at udrydde menneskeheden med Arnold Schwarzenegger i en af hovedrollerne.

Ditlev Petersen

Man kan håbe, at deres samvittighed har plaget dem, og at det er grunden til det grimme navn. Men jeg tror det ikke rigtigt.

Det er ikke så mange år siden, at man brugte "edb" som argument for, at det jo måtte være korrekt. Uanset om det var kontaktbureauer, den skrækkelige algoritme jeg selv skrev (jeg har nævnt den før) eller en direktør der forklarede, at en printet grafikfil var en autentisk underskrift, fordi den stammede fra virksomhedens edb-system.

Log ind eller opret en konto for at skrive kommentarer

JobfinderJob i it-branchen