Forskning: Adskillige fairness-tests for ML giver ingen garanti mod ulovlig diskrimination

Forskning: Adskillige fairness-tests for ML giver ingen garanti mod ulovlig diskrimination
Illustration: davinci / Bigstock.
Lovgivere bør stille krav til, hvordan vi adresserer bias i ML og AI-systemer, siger Oxford-forskere. 
25. marts 2021 kl. 11:43
errorÆldre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.


En lang række af de metoder, som ML-praktikere kan ty til for måle modellers fairness, giver ikke nødvendigvis garanti mod, at modellen ender med at være diskriminerende i juridisk forstand. 

Sådan konkluderer et hold forskere fra Oxford efter at have sammenlignet 20 forskellige måder at måle fairness i machine learning på med den metode, som bliver brugt i EU's antidiskriminationslov i retspraksis. 

»Antidiskriminationslov i EU sigter efter reel lighed,« forklarer Brent Mittlestadt, Senior Research Fellow i dataetik ved Oxford Internet Institute og en af forskerne bag studiet.  

»Det betyder, at blot at behandle forskellige beskyttede grupper ens fremadrettet - dvs. formel lighed - ikke er nok. Snarere sigter loven efter udligne 'the playing field’ for grupper, der historisk har været dårligt stillede.«

Artiklen fortsætter efter annoncen

Problemet er, at mange eksisterende metoder til at måle fairness i ML behandler status quo som et neutralt udgangspunkt for at måle ulighed - hvad forskerne kalder en »bias-bevarende« måde at måle fairness på. 

»Det betyder, at accept af eksisterende uligheder bliver taget for givet,« påpeger Brent Mittlestadt. 

»Det er et problem, hvis vi ønsker at bruge ML og AI ikke blot til at opretholde status quo, men til aktivt at gøre samfundet mere retfærdigt ved at rette eksisterende sociale, økonomiske og andre uligheder. Og det kolliderer ligeledes med antidiskriminationslovens mål om at opnå reel ligestilling.«

Bias-bevarende

Brent Mittlestadt har sammen med AI-forsker Sandra Wachter og Chris Russell, der leder Safe and Ethical AI-gruppen ved Alan Turing Institute, tidligere leveret forskning i explainability, som er citeret i retningslinjerne til GDPR og bruges i TensorFlows 'What If'-værktøj. 

I den nye artikel Bias Preservation in Machine Learning: The Legality of Fairness Metrics Under EU Non Discrimination Law, der er optaget i West Virginia Law Review, undersøger forskerholdet 20 måder at måle fairness på og kommer frem til, at over halvdelen er 'bias-bevarende'. 

Hvis man således træner en model til at tage automatiserede beslutninger i et felt, der historisk har været præget af ulighed, og bruger bias-bevarende metoder til at afgøre, om den er fair, kan man få svært ved at retfærdiggøre det over for en domstol - selv hvis intentionen med modellen og fairness-målingen er god, og diskrimineringen kun sker indirekte. 

»For all these reasons, unquestioning use of bias preserving metrics in automated decision-making is therefore inadvisable in places governed by non-discrimination law,« skriver forskerne. 

Forskerne skelner mellem målemetoder, der bevarer eller transformerer eksisterende bias.


Illustration: Sandra Wachter, Brent Mittelstadt, Chris Russell, 2021

En gylden standard

I deres analyse af retspraksis blev det klart for forskerholdet, at betydningen af fairness i en juridisk forstand er meget afhængig af kontekst og varierer fra sag til sag. Man kan således ikke opstille et specifikt, kvantificerbart krav om, hvordan en model kan siges af være fair eller ej, fortæller Brent Mittlestadt.

»Hvad vi fandt er til gengæld, at der er visse proceduremæssige krav til, hvordan fairness måles, som kan forstås som en gylden standard for at sammenligne resultater mellem grupper, og på den måde måle fairness i praksis.«

På baggrund af den standard foreslår forskerne en fairness-måling, de kalder 'Conditional Demographic Disparity', der er mest mulig kompatibel med den måde som EU-Domstolen har behandlet koncepter om ulovlig ulighed. 


 
Illustration: Europa-Nævnet

Version2 og DataTech har fået økonomisk støtte fra Europa-Nævnet til at sætte journalistisk fokus på arbejdet med at regulere AI. 

EU-Kommissionen vil i år vil fremlægge et forslag til, hvordan AI skal tøjles. Forude venter således en afgørende offentlig debat, som skal være med til at sikre, at den endelige lovtekst rammer den rigtige blanding af sikkerheder og muligheder. Et fejlskud mod den ene af disse poler kan have alvorlige konsekvenser for Europas evne til succesfuldt at udnytte AI i dette årti. 

Version2 og DataTech vil i en artikelserie gå i dybden med, hvordan EU konkret vil regulere AI, hvor der er behov for regulering, ligesom vi undersøger, hvordan de specifikke regler rammer ned i det praktiske arbejde med AI i europæiske virksomheder. 

'Conditional Demographic Disparity' (CDD) går groft sagt ud på at teste, om beskyttede grupper - f.eks. efter køn - behandles lige f.eks. i forhold til løn, efter at der er korrigeret for en såkaldt conditioning variable som f.eks. anciennitet. 

Krav om åbenhed

CDD er ikke en silver bullet, erkender forskerne, blandt andet fordi udviklere stadig skal vælge de rigtige conditioning variabler. Af samme grund foreslår Brent Mittlestadt, at åbenhed om fairness-tests bliver et krav. 

»Lovgivere bør sætte proceduremæssige krav for at måle fairness og sammenligne resultater på tværs af grupper, der er berørt af beslutninger fra et AI-system,« siger han.

»Specifikt anbefaler vi at kræve, at organisationer, der bruger AI til at tage vigtige beslutninger, offentliggør statistik baseret på Conditional Demographic Disparity. Det vil sikre, at alle parter i en sag om potentiel diskrimination eller en unfair automatisk beslutning har adgang til et fælles sæt af beviser, som kan bruges til at afgøre, hvad der er reelt fair i deres specifikke sag.«

Brent Mittlestadt understreger, at bias-bevarende tests stadig kan være relevante værktøjer for udviklere. De er stadig brugbare testredskaber og kan desuden anvendes i specifikke situationer, hvor en reel lighed ikke er målet. 

Men i situationer, hvor Ai-systemer skal tage fair beslutninger, bør lovgivere kræve, at man bruger en 'bias-transformerende' målemetode, siger Brent Mittlestadt. 

Ingen kommentarer endnu.  Start debatten
Debatten
Log ind for at deltage i debatten.
settingsDebatindstillinger