Forskning: Adskillige fairness-tests for ML giver ingen garanti mod ulovlig diskrimination

Lovgivere bør stille krav til, hvordan vi adresserer bias i ML og AI-systemer, siger Oxford-forskere. 


En lang række af de metoder, som ML-praktikere kan ty til for måle modellers fairness, giver ikke nødvendigvis garanti mod, at modellen ender med at være diskriminerende i juridisk forstand. 

Sådan konkluderer et hold forskere fra Oxford efter at have sammenlignet 20 forskellige måder at måle fairness i machine learning på med den metode, som bliver brugt i EU's antidiskriminationslov i retspraksis. 

»Antidiskriminationslov i EU sigter efter reel lighed,« forklarer Brent Mittlestadt, Senior Research Fellow i dataetik ved Oxford Internet Institute og en af forskerne bag studiet.  

»Det betyder, at blot at behandle forskellige beskyttede grupper ens fremadrettet - dvs. formel lighed - ikke er nok. Snarere sigter loven efter udligne 'the playing field’ for grupper, der historisk har været dårligt stillede.«

Problemet er, at mange eksisterende metoder til at måle fairness i ML behandler status quo som et neutralt udgangspunkt for at måle ulighed - hvad forskerne kalder en »bias-bevarende« måde at måle fairness på. 

»Det betyder, at accept af eksisterende uligheder bliver taget for givet,« påpeger Brent Mittlestadt. 

»Det er et problem, hvis vi ønsker at bruge ML og AI ikke blot til at opretholde status quo, men til aktivt at gøre samfundet mere retfærdigt ved at rette eksisterende sociale, økonomiske og andre uligheder. Og det kolliderer ligeledes med antidiskriminationslovens mål om at opnå reel ligestilling.«

Bias-bevarende

Brent Mittlestadt har sammen med AI-forsker Sandra Wachter og Chris Russell, der leder Safe and Ethical AI-gruppen ved Alan Turing Institute, tidligere leveret forskning i explainability, som er citeret i retningslinjerne til GDPR og bruges i TensorFlows 'What If'-værktøj. 

I den nye artikel Bias Preservation in Machine Learning: The Legality of Fairness Metrics Under EU Non Discrimination Law, der er optaget i West Virginia Law Review, undersøger forskerholdet 20 måder at måle fairness på og kommer frem til, at over halvdelen er 'bias-bevarende'. 

Hvis man således træner en model til at tage automatiserede beslutninger i et felt, der historisk har været præget af ulighed, og bruger bias-bevarende metoder til at afgøre, om den er fair, kan man få svært ved at retfærdiggøre det over for en domstol - selv hvis intentionen med modellen og fairness-målingen er god, og diskrimineringen kun sker indirekte. 

»For all these reasons, unquestioning use of bias preserving metrics in automated decision-making is therefore inadvisable in places governed by non-discrimination law,« skriver forskerne. 

Forskerne skelner mellem målemetoder, der bevarer eller transformerer eksisterende bias.

Illustration: Sandra Wachter, Brent Mittelstadt, Chris Russel

Illustration: Sandra Wachter, Brent Mittelstadt, Chris Russell, 2021

En gylden standard

I deres analyse af retspraksis blev det klart for forskerholdet, at betydningen af fairness i en juridisk forstand er meget afhængig af kontekst og varierer fra sag til sag. Man kan således ikke opstille et specifikt, kvantificerbart krav om, hvordan en model kan siges af være fair eller ej, fortæller Brent Mittlestadt.

»Hvad vi fandt er til gengæld, at der er visse proceduremæssige krav til, hvordan fairness måles, som kan forstås som en gylden standard for at sammenligne resultater mellem grupper, og på den måde måle fairness i praksis.«

På baggrund af den standard foreslår forskerne en fairness-måling, de kalder 'Conditional Demographic Disparity', der er mest mulig kompatibel med den måde som EU-Domstolen har behandlet koncepter om ulovlig ulighed. 

'Conditional Demographic Disparity' (CDD) går groft sagt ud på at teste, om beskyttede grupper - f.eks. efter køn - behandles lige f.eks. i forhold til løn, efter at der er korrigeret for en såkaldt conditioning variable som f.eks. anciennitet. 

Krav om åbenhed

CDD er ikke en silver bullet, erkender forskerne, blandt andet fordi udviklere stadig skal vælge de rigtige conditioning variabler. Af samme grund foreslår Brent Mittlestadt, at åbenhed om fairness-tests bliver et krav. 

»Lovgivere bør sætte proceduremæssige krav for at måle fairness og sammenligne resultater på tværs af grupper, der er berørt af beslutninger fra et AI-system,« siger han.

»Specifikt anbefaler vi at kræve, at organisationer, der bruger AI til at tage vigtige beslutninger, offentliggør statistik baseret på Conditional Demographic Disparity. Det vil sikre, at alle parter i en sag om potentiel diskrimination eller en unfair automatisk beslutning har adgang til et fælles sæt af beviser, som kan bruges til at afgøre, hvad der er reelt fair i deres specifikke sag.«

Brent Mittlestadt understreger, at bias-bevarende tests stadig kan være relevante værktøjer for udviklere. De er stadig brugbare testredskaber og kan desuden anvendes i specifikke situationer, hvor en reel lighed ikke er målet. 

Men i situationer, hvor Ai-systemer skal tage fair beslutninger, bør lovgivere kræve, at man bruger en 'bias-transformerende' målemetode, siger Brent Mittlestadt. 

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (0)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere