MIT fjerner datasæt, der har trænet AI-systemer til at være racistisk og sexistisk

Illustration: MIT
Universitetet undskylder for datasæt, der er annoteret med nedsættende ord om kvinder og sorte.

MIT, et af verdens ledende universiteter inden for AI-forskning, har permanent fjernet et billeddatasæt på grund af racisitisk og sexistiske labels.

Det skriver The Register.

Datasættet blev skabt i 2006, og er siden blevet flittigt brugt til at udvikle modeller, der kan identificerer personer og objekter på billeder.

Men da MIT sammensatte datasættet - 80 Million Tiny Images - blev det gjort uden nogen nærmere kuratering af de label, der er tilknyttet hvert billede, og som f.eks. skal lære et neuralt netværk, at billedet forestiller en cykel eller en bil.

Tusindvis af billeder er nemlig annoteret med ord som 'luder', 'bitch' og 'pædofil'. Tilsvarende er mange billeder noteret med nedsættende ord rettet mod bestemte etniske grupper.

Det viser en større kulegravning, som Vinay Prabhu, chief scientist hos UnifyID, og Abeba Birhane, ph.d.-studerende ved University College Dublin, har lavet.

Illustration: Prabhu & Birhane, 2020

Forskere: Undskyld

De problematiske labels er opstået fordi MIT i sin tid hentede navneord fra ord-databasen Wordnet, og brugte dem til automatisk at hente korresponderende billeder på søgemaskiner.

I en meddelelse fra Antonio Torralba, Rob Fergus og Bill Freeman, der oprindeligt præsenterede datasættet, fortæller MIT-forskerne, at de ikke var klar over de problematisk labels.

»Vi er meget berørte over det, og vi undskylder over for alle, der er blevet påvirket,« skriver de.

At manuelt rydde op i de 80 millioner billeder er ikke muligt, skriver forskerne. Og derfor fjerner de nu datasættet og opfordrer udviklere til at slette lokale kopier.

Oprydning i ImageNet

80 Million Tiny Images er ligesom det ikoniske ImageNet-datasæt blevet brugt til at benchmarke AI-modeller. Men i modsætning til ImageNet har ingen altså tidligere lavet et grundig og kritisk gennemgang af indholdet.

ImageNet - der er skabt af forskere ved Stanford og Princeton - har været signifikant for udvikling af deep learning-modeller til billedgenkendelse gennem den såkaldte ImageNet Challenge.
Men heller ikke her stod etikken ekstremt højt på dagsordenen, da datasættet blev skabt mellem 2007 og 2009.

Vinay Prabhu har tidligere demonstreret, at der er flere tvivlsomme billeder at finde i arkivet med over 14.000.000 billeder - foruden problematiske labels fandt Prabhu flere billeder af nøgne børn samt pornografisk materiale.

Forskerne bag ImageNet satte i september sidste år gang i en større indsats, der blandt andet skal fjerne kønsmæssige og etniske bias i datasættet.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (1)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Mikael Ibsen

et oplagt medie for bias og dermed muligt (fx. politisk) misbrug. Endvidere, at har bias’en først gennemtrængt databasen, kan den ikke rettes, men må laves om. Og dermed kommer der et tungt økonomisk aspekt ind i lyst og mulighed for at korrigere vildfarne AI projekter.

Fagre nye verden...

  • 2
  • 0
Log ind eller Opret konto for at kommentere