Amerikansk algoritme-sjusk kan have medført droneangreb på uskyldige

16. februar 2016 kl. 16:425
Amerikansk machine learning-software, der automatisk identificerer potentielle terrorister, bliver af ledende forsker kritiseret for at være noget »forbandet vrøvl«.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Krigen mod terror er på mange måder blevet automatiseret med førerløse dræberdroner og det amerikanske Skynet-program, der via machine learning automatisk identificerer potentielle terrorister ud fra metadata.

Oplysningerne fra Skynet hjælper USA med at iværksætte droneangreb, der i Pakistan alene har dræbt mellem 2.500 og 4.000 personer siden 2004.

Nu viser det sig, at softwaren i Skynet - der kan have været i udvikling siden 2007 - er videnskabeligt uholdbar ifølge it-forsker og direktør for Human Rights Data Analysis Group, Patrick Ball, som har udtalt sig til det amerikanske medie Ars Technica.

Grundlæggende er Skynet’s machine learning til automatisk at identificere potentielle terrorister sjusket udført ved blandt andet at basere sig på et alt for tyndt datagrundlag, lyder kritikken.

Artiklen fortsætter efter annoncen

I sidste ende kan det skade kvaliteten af softwarens resultater og dermed nøjagtigheden af, hvem der klassificeres som ‘terrorist’ og bliver snigmyrdet, fortæller Patrick Ball til Ars Technica.

For god ordens skyld skal det nævnes, at det ikke er offentligt kendt, hvordan efterretningstjenesterne NSA og CIA bruger resultaterne fra Skynet, og hvad der ellers kræves for, at et droneangreb iværksættes.

NSA træner antiterrorist-software med datagrundlag fra kun 7 terrorister

Machine learning er et velkendt fænomen, som vi støder på i hverdagen, når vi f.eks. skal skrive et email-svar i Gmail’s Inbox-tjeneste. Emailtjenesten er i dag i stand til at forudsige, hvilke sætninger vi vil skrive som svar og foreslår dem, når man trykker ‘reply’.

Og det ved den fordi den har analyseret på millioner af emails, og hvad modtagerne efterfølgende har svaret.

Artiklen fortsætter efter annoncen

Kort sagt går machine learning således ud på at lære computere mønstre for, hvordan de skal agere ud fra store datamængder.

Vis en computer tusind forskellige billeder af en kat, og den vil ved hjælp af machine learning automatisk kunne identificere katte på helt nye billeder, som den ikke har set før.

Det er samme princip, som NSA bruger til at ‘træne’ Skynet-softwaren i at identificere potentielle terrorister.

Datagrundlaget kan i dette eksempel sammenlignes med det, som teleselskaberne i Danmark henter med telelogningen - dvs. metadata fra mobilnetværket, såsom tidspunkt og varighed af opkald, afsender, modtager samt fysisk lokation.

Artiklen fortsætter efter annoncen

Men hvor den danske telelogning kun gælder i Danmark, så tærer amerikanske Skynet på data fra over 55 millioner pakistaneres brug af deres mobiltelefon, afslørede det amerikanske undersøgende medie The Intercept i maj 2015.

Ud fra disse data har NSA defineret 80 variabler, som kan være med til at identificere en potentiel terrorist. Skifter man eksempelvis ofte sim-kort på mobiltelefonen, slukker og tænder mobilen tit eller rejser gentagne gange til områder forbundet med terrorist-aktivitet, så er det med til at klassificere dig som en potentiel terrorist i Skynet.

Et af hovedproblemerne i softwaren er dog ifølge Patrick Ball de data, som NSA bruger til at lære Skynet, hvordan den skal identificere en terrorist.

NSA har ifølge de lækkede slides fra The Intercept kun benyttet sig af metadata fra seks kendte terrorister som udgangspunkt for at teste Skynet-modellen. Algoritmerne skulle efterfølgende forsøge at identificere en syvende terrorist gemt i en gruppe af 100.000 tilfældigt udvalgte personer.

Dette er dog slet ikke nok til at sikre en videnskabeligt velfunderet statistisk analyse ifølge Patrick Ball, der kalder evalueringen for noget »forbandet vrøvl« eller »complete bullshit« på godt gammelt engelsk, hvis modellen baserer sig på samme datagrundlag til at blive trænet.

Journalist blev fejlagtigt identificeret som terrorist

NSA træder forkert flere gange i deres evaluering af Skynet ifølge Patrick Ball.

For det første er der relativt få kendte terrorister, som NSA kan basere deres datasæt og algoritmer på. Derfor er det også relativt usandsynligt, at systemet vil fange andre ukendte terrorister, da de let kan adskille sig mærkbart fra de kendte eksempler.

Ved at bruge et snævert datagrundlag øger det risikoen for såkaldte falske positiver, dvs. uskyldige personer som bliver identificeret som terrorister.

NSA har ifølge Ars Technica brugt en random forest machine learning-algoritme, der benytter sig af tilfældige sæt fra træningsdata til at skabe en skov af beslutnings-’træer’.

Hvert træ kommer med en forudsigelse ud fra de 80 variabler og gennemsnittet af disse udgør således den samlede karakter for, hvor sandsynligt det er, vedkommende er en terrorist. Ikke ulig metoden fra spamfiltre.

NSA’s evaluering baserer sig på en 50 pct. rate af falske negativer - det vil sige, at i halvdelen af tilfældene vil en terrorist blive klassificeret som uskyldig.

Omvendt betyder den pågældende rate, at systemet ifølge NSA vil betegne en uskyldig som terrorist i 0,18 pct. af tilfældene.

For et spamfilter er denne fejlrate sandsynligvis ganske tilfredsstillende. Men når der er tale om viden, der skal være med til at retfærdiggøre ubemandede droneangreb, kan det potentielt være katastrofalt.

Det er ikke offentligt kendt, hvilken fejlrate som Skynet aktuelt opererer med. Men tager man udgangspunkt i de ovenstående lækkede tal fra NSA’s interne evaluering, så vil det i en befolkningsgruppe på 55 millioner resultere i, at 99.000 fejlagtigt bliver identificeret som terrorister.

Selv med efterretningstjenestens mest optimistiske fejlrate på 0,008 pct. vil 4.400 mennesker blive fejlkategoriseret.

Det er da også set, at Skynet har taget fejl - endda med et eksempel, som NSA fremhævede som en succes.

En af de personer i Pakistan, der ifølge Skynet var mest tilbøjelig til at være terrorist, er det arabiske nyhedsmedie Al-Jazeeras bureau-chef Ahmed Zaidan.

Han kom i softwarens søgelys, fordi han ofte rejser til områder med terrorist-aktiviteter for at interviewe oprørere for Al-Jazeera. Alligevel blev eksemplet fremhævet af NSA’s ingeniører, der påpegede Skynets overlegenhed, selvom softwaren fejlagtigt havde identificeret Zaidan som medlem af både Al-Qaeda og det Muslimske Broderskab.

5 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
5
17. februar 2016 kl. 16:26

Joke..?

4
17. februar 2016 kl. 16:14

Man kan håbe, at deres samvittighed har plaget dem, og at det er grunden til det grimme navn. Men jeg tror det ikke rigtigt.

Det er ikke så mange år siden, at man brugte "edb" som argument for, at det jo måtte være korrekt. Uanset om det var kontaktbureauer, den skrækkelige algoritme jeg selv skrev (jeg har nævnt den før) eller en direktør der forklarede, at en printet grafikfil var en autentisk underskrift, fordi den stammede fra virksomhedens edb-system.

3
17. februar 2016 kl. 12:12

Ikke været sarkastisk, men haft meget sort humor.

Ellers er det jo en dødsyg forklaring.

2
17. februar 2016 kl. 09:33

Jeg tænkte det samme.

1
17. februar 2016 kl. 08:48

At kalde den slags software for Skynet!

Skynet var i 1990 ’erne en kunstig intelligens som i Terminator-filmene opnåede selvbevisthed og derpå gik i gang med at udrydde menneskeheden med Arnold Schwarzenegger i en af hovedrollerne.