MIT fjerner datasæt, der har trænet AI-systemer til at være racistisk og sexistisk
MIT, et af verdens ledende universiteter inden for AI-forskning, har permanent fjernet et billeddatasæt på grund af racisitisk og sexistiske labels.
Det skriver The Register.
Datasættet blev skabt i 2006, og er siden blevet flittigt brugt til at udvikle modeller, der kan identificerer personer og objekter på billeder.
Men da MIT sammensatte datasættet - 80 Million Tiny Images - blev det gjort uden nogen nærmere kuratering af de label, der er tilknyttet hvert billede, og som f.eks. skal lære et neuralt netværk, at billedet forestiller en cykel eller en bil.
Tusindvis af billeder er nemlig annoteret med ord som 'luder', 'bitch' og 'pædofil'. Tilsvarende er mange billeder noteret med nedsættende ord rettet mod bestemte etniske grupper.
Det viser en større kulegravning, som Vinay Prabhu, chief scientist hos UnifyID, og Abeba Birhane, ph.d.-studerende ved University College Dublin, har lavet.
Forskere: Undskyld
De problematiske labels er opstået fordi MIT i sin tid hentede navneord fra ord-databasen Wordnet, og brugte dem til automatisk at hente korresponderende billeder på søgemaskiner.
I en meddelelse fra Antonio Torralba, Rob Fergus og Bill Freeman, der oprindeligt præsenterede datasættet, fortæller MIT-forskerne, at de ikke var klar over de problematisk labels.
»Vi er meget berørte over det, og vi undskylder over for alle, der er blevet påvirket,« skriver de.
At manuelt rydde op i de 80 millioner billeder er ikke muligt, skriver forskerne. Og derfor fjerner de nu datasættet og opfordrer udviklere til at slette lokale kopier.
Oprydning i ImageNet
80 Million Tiny Images er ligesom det ikoniske ImageNet-datasæt blevet brugt til at benchmarke AI-modeller. Men i modsætning til ImageNet har ingen altså tidligere lavet et grundig og kritisk gennemgang af indholdet.
ImageNet - der er skabt af forskere ved Stanford og Princeton - har været signifikant for udvikling af deep learning-modeller til billedgenkendelse gennem den såkaldte ImageNet Challenge.
Men heller ikke her stod etikken ekstremt højt på dagsordenen, da datasættet blev skabt mellem 2007 og 2009.
Vinay Prabhu har tidligere demonstreret, at der er flere tvivlsomme billeder at finde i arkivet med over 14.000.000 billeder - foruden problematiske labels fandt Prabhu flere billeder af nøgne børn samt pornografisk materiale.
Forskerne bag ImageNet satte i september sidste år gang i en større indsats, der blandt andet skal fjerne kønsmæssige og etniske bias i datasættet.
