MIT fjerner datasæt, der har trænet AI-systemer til at være racistisk og sexistisk

1 kommentar.  Hop til debatten
80 million tiny images
Illustration: MIT.
Universitetet undskylder for datasæt, der er annoteret med nedsættende ord om kvinder og sorte.
3. juli 2020 kl. 09:13
errorÆldre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

MIT, et af verdens ledende universiteter inden for AI-forskning, har permanent fjernet et billeddatasæt på grund af racisitisk og sexistiske labels.

Det skriver The Register.

Datasættet blev skabt i 2006, og er siden blevet flittigt brugt til at udvikle modeller, der kan identificerer personer og objekter på billeder.

Men da MIT sammensatte datasættet - 80 Million Tiny Images - blev det gjort uden nogen nærmere kuratering af de label, der er tilknyttet hvert billede, og som f.eks. skal lære et neuralt netværk, at billedet forestiller en cykel eller en bil.

Artiklen fortsætter efter annoncen

Tusindvis af billeder er nemlig annoteret med ord som 'luder', 'bitch' og 'pædofil'. Tilsvarende er mange billeder noteret med nedsættende ord rettet mod bestemte etniske grupper.

Det viser en større kulegravning, som Vinay Prabhu, chief scientist hos UnifyID, og Abeba Birhane, ph.d.-studerende ved University College Dublin, har lavet.

Forskere: Undskyld

De problematiske labels er opstået fordi MIT i sin tid hentede navneord fra ord-databasen Wordnet, og brugte dem til automatisk at hente korresponderende billeder på søgemaskiner.

I en meddelelse fra Antonio Torralba, Rob Fergus og Bill Freeman, der oprindeligt præsenterede datasættet, fortæller MIT-forskerne, at de ikke var klar over de problematisk labels.

»Vi er meget berørte over det, og vi undskylder over for alle, der er blevet påvirket,« skriver de.

At manuelt rydde op i de 80 millioner billeder er ikke muligt, skriver forskerne. Og derfor fjerner de nu datasættet og opfordrer udviklere til at slette lokale kopier.

Oprydning i ImageNet

80 Million Tiny Images er ligesom det ikoniske ImageNet-datasæt blevet brugt til at benchmarke AI-modeller. Men i modsætning til ImageNet har ingen altså tidligere lavet et grundig og kritisk gennemgang af indholdet.

ImageNet - der er skabt af forskere ved Stanford og Princeton - har været signifikant for udvikling af deep learning-modeller til billedgenkendelse gennem den såkaldte ImageNet Challenge.
Men heller ikke her stod etikken ekstremt højt på dagsordenen, da datasættet blev skabt mellem 2007 og 2009.

Vinay Prabhu har tidligere demonstreret, at der er flere tvivlsomme billeder at finde i arkivet med over 14.000.000 billeder - foruden problematiske labels fandt Prabhu flere billeder af nøgne børn samt pornografisk materiale.

Forskerne bag ImageNet satte i september sidste år gang i en større indsats, der blandt andet skal fjerne kønsmæssige og etniske bias i datasættet.

1 kommentar.  Hop til debatten
Debatten
Log ind for at deltage i debatten.
settingsDebatindstillinger
1
3. juli 2020 kl. 11:51

et oplagt medie for bias og dermed muligt (fx. politisk) misbrug. Endvidere, at har bias’en først gennemtrængt databasen, kan den ikke rettes, men må laves om. Og dermed kommer der et tungt økonomisk aspekt ind i lyst og mulighed for at korrigere vildfarne AI projekter.

Fagre nye verden...