Microsoft har i al stilhed slettet enorm database til ansigtsgenkendelse

7. juni 2019 kl. 08:578
Microsoft har i al stilhed slettet enorm database til ansigtsgenkendelse
Illustration: Bigstock.
Databasen, der ifølge Microsoft blev brugt til at træne ansigtsgenkendelses-teknologi, indeholdt over 10 millioner billeder af omkring 100.000 forskellige mennesker.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Microsoft har fjernet en database med over 10 millioner billeder af omkring 100.000 forskellige personer.

Det skriver Financial Times (bag betalingsmur) og flere andre medier.

Databasen, der har haft navnet MS Celeb, blev etableret i 2016 og har hidtil været kendt som verdens største offentligt tilgængelige datasæt til at træne ansigtsgenkendelse.

Personerne, der har lagt ansigt til de mange billeder i databasen, er ikke blevet spurgt om tilladelse til, at deres billeder kan bruges. Det skyldes, at Microsoft har scraped billeder og videoer af offentligt kendte personer med tilladelse fra Creative Commons-licens.

Artiklen fortsætter efter annoncen

Licensen giver lov til at bruge billederne i akademisk sammenhæng, hvilket ifølge Microsoft har været det nøjagtige formål med MS Celeb-Databasen.

Men nu har Microsoft fjernet databasen efter afsløringer af, at data er blevet brugt af flere kommercielle virksomheder såsom Nvidia, IBM, Panasonic, Alibaba, Hitachi, Sensetime og Megvii.

De to sidstnævnte er kinesiske leverandører til embedsværket i den kinesiske Xinjiang-region, hvor muslimske mindretal bliver overvåget og anbragt i interneringslejre.

Overfor Financial Times oplyser Microsoft, at »det var tiltænkt, at siden skulle bruges til akademiske formål. Det var en medarbejder, der ikke længere er ansat hos Microsoft, som stod for driften, og den er sidenhen blevet fjernet«.

8 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
8
9. juni 2019 kl. 00:32

Det var da godt nok en skræmmende holdning. Har du samme holdning til andet militær/våben forskning?

Stiller du også gerne åbne dataset til rådighed for forskning i biologisk krigsførelse eller lignende?

Det kan da ikke være et argument at de andre gør det, eller at de her våben mangler diversitet - hvorfor skal vi overhovedet have de her våben?

7
8. juni 2019 kl. 16:46

Msceleb har i høj grad fremmet forskningen, og gjort at andre end Kina, Google og Facebook har haft en chance for at arbejde med ansigtsgenkendelse og GANs. Hvis vi skal løse problemerne med manglende diversitet inden for AI, har vi brug for flere, ikke færre, åbne dataset. Information wants to be free, som vi sagde i min ungdom.

6
8. juni 2019 kl. 05:34

Jeg synes også at denne sag skal give anledning til at folk overvejer hvad de deler offentligt og med hvilken licens. Hvis du lægger dit privat liv ud på nettet med facebook eller lignende, så har du ingen ide om hvad det kan bruges til.

4
7. juni 2019 kl. 17:12

Og det er vel helt ok, at se sig tilbage, og indse at man er gået for langt, også handle der efter.

Selvfølgelig er det i orden at lære af sine fejl og handle derefter. Helt sikkert. ”Vi lærer, mens vi løber”, etc.

Alligevel undrer det mig stadig lidt, at ingen i Microsoft tilsyneladende har haft en eller anden form for etisk eller moralsk mavefornemmelse – undervejs – for, at denne database, med dette formål, måske alligevel ikke er helt i orden og på sin plads. Siden 2016.

At det ikke er helt i orden at indsamle, hvad der endte med at være 10 millioner billeder af omkring 100.000 forskellige personer (celebs) og stille det gratis til rådighed for 3. part af kommercielle (+ statslige og militære) interessenter, således de frit kan træne deres ansigtsgenkendelsesteknologi.

At der er et eller andet her, som ikke rigtig er i orden...

(Du ved, somme tider kan man mærke, at der er noget galt, men man kan ikke altid lokalisere, hvad det er. Og heller ikke, selvom man måske har spurgt i juraafdelingen, om det kan forsvares. Og det er heller ikke helt det samme, som at gå ind og plukke alle roserne i naboens forhave, bare fordi dine arme kan nå indover hækken).

Virksomheden er jo gået forrest og har talt varmt for høje etiske og moralske principper. 07.02.19: https://www.version2.dk/artikel/microsoft-chef-hele-verden-skal-have-ret-kontrol-egne-persondata-1087438

3
7. juni 2019 kl. 12:54

Mon ikke databasen er slettet, fordi det gik op for MS, at den, og deres forehavende, er både stærkt uetisk, men også ulovlig?

Sikkert. Og som en etisk og moralsk virksomhed har de så handlet der efter ?

Det er jo som med terrorlovgivning og censur. Et lille skridt af gangen. Men når man så ser sig tilbage overs skulderen, er man endt i et diktatur uden basale frihedsretigheder.

Og det er vel helt ok, at se sig tilbage, og indse at man er gået for langt, også handle der efter.

2
7. juni 2019 kl. 10:51

Py-ha, jeg synes dette her er en grim sag.

Mon ikke databasen er slettet, fordi det gik op for MS, at den, og deres forehavende, er både stærkt uetisk, men også ulovlig?

Ved godt, at MS angiveligt ikke er ansvarlige over for GDPR eller lign., når de opererer fra USA, men jeg synes også, at de har en lidt vel rigelig kreativ måde at tolke og bruge Creative Commons-licensen.

At de har indset, at databasen måske kan gå hen at blive et dyrt aktiv, i form af fremtidige søgsmål?

Det er også lidt for let blot at lukke sagen, ved at sige, at medarbejderen ikke længere er ansat hos MS. Det er vel næppe denne ”enkelte medarbejder”, der stod for driften af databasen, som også er enerådig beslutningstager til projektet? Come on…

Det her er en skandale, som fortjener at blive boret lidt mere i, synes jeg.

1
7. juni 2019 kl. 10:02

"Overfor Financial Times oplyser Microsoft, at »det var tiltænkt, at siden skulle bruges til akademiske formål. Det var en medarbejder, der ikke længere er ansat hos Microsoft, som stod for driften, og den er sidenhen blevet fjernet."

Måske er det sandt, at det var en enkelt pilrådden medarbejder - måske ikke. Uanset hvad viser det til fulde, hvor forsigtige vi skal være med at tro på forsikringer om god datasikkerhed og etik, når det handler om persondata.

Politiken har i dag historien om den kinesiske forsker, der har genmanipuleret et par tvillinger til at være resistente overfor HIV - hvor det så nu viser sig, at de til gengæld sandsynligvis er blevet mindre resistente overfor andre sygdomme (vist ikke online endnu). Et eksempel på hovedløs og uetisk forskning. Og jo flere vore data fordeles til, jo større er risikoen for, at disse rådne æbler får adgang til dem, og misbruger dem til den slags formål. Mine data skal ikke kunne bruges til den slags.