Google-forskere: Hårdt brug for bedre dokumentation af ML-modeller

1 kommentar.  Hop til debatten
Google-forskere: Hårdt brug for bedre dokumentation af ML-modeller
Illustration: BigStock, MicroOne.
En standard for dokumentation af ML-modeller er kritisk for at undgå misbrug, mener Google-forskere.
24. januar 2019 kl. 05:12
errorÆldre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Der eksisterer i dag ingen standarder for, hvordan udviklere dokumenterer de machine learning-modeller, de træner og skaber. Hvad var modellens oprindelige formål? Hvad er dens begrænsninger? Disse spørgsmål bliver typisk ikke besvaret, når modellerne bliver frigivet til brug.

Og det er et problem, mener et hold forskere fra Google. Særligt når modellerne bruges på områder, hvor de kan have alvorlig indvirkning på personers liv - som i sundhedssektoren samt inden for beskæftigelse, uddannelse og retsvæsen.

Eksempler på systematisk bias i algoritmer er efterhånden talrige, skriver de ni forskere i en artikel, der i slutningen af denne måned bliver præsenteret på konferencen Fairness, Accountability and Transparency (ACM FAT) i Atlanta, USA.

»However, these systematic errors were only exposed after models were put into use, and negatively affected users reported their experiences.«

Artiklen fortsætter efter annoncen

MIT-studerende Joy Buolamwini fandt f.eks. ud af, at kommercielle løsninger til ansigtsgenkendelse klarede sig signifikant dårligere på mørke kvinder end på hvide mænd.

Men i dokumentationen for modellerne om deres performance og use cases er der meget lidt information om den type svagheder, bemærker forskerne.

»This highlights the need to have detailed documentation accompanying trained machine learning models, including metrics that capture bias, fairness and inclusion considerations,« lyder konklusionen.

Brug ikke denne model ...

Løsningen, som Google-forskerne foreslår, er en dokumentationsstandard, de har døbt Model Cards - én til to siders information om kritiske aspekter af ML-modellen. Informationen skal kunne bruges af brugere og udviklere såvel som lovgivere og personer, der måtte være påvirket af en ML-model og gerne vil forstå den bedre.

Artiklen fortsætter efter annoncen

»The proposal of 'Model Cards' specifically aims to standardize ethical practice and reporting - allowing stakeholders to compare candidate models for deployment across not only traditional evaluation metrics but also along the axes of ethical, inclusive, and fair considerations,« skriver forskerne.

Om forskningen:

Artiklen 'Model Cards for Model Reporting' er skrevet af en række forskere ved Google.

Forfatterne er Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji og Timnit Gebru.

Artiklen bliver præsenteret i slutningen af januar på Fairness, Accountability and Transparency (ACM FAT) i Atlanta, USA. 

»This goes further than current solutions to aid stakeholders in different contexts. For example, to aid policy makers and regulators on questions to ask of a model, and known benchmarks around the suitability of a model in a given setting.«

Model-kortet, som forskerne foreslår, skal først og fremmest rumme basal information om modellen såsom dato og udviklere. Dette punkt bør også rumme information om træningsalgoritmer og parametre.

Under punktet Intended Use anføres, hvilke brugere og use cases udviklerne forestillede sig under udvikling, samt hvilke uses cases man ikke anbefaler. Sidstnævnte element sammenligner forskerne med advarsler på legetøj og madvarer. En sådan varsel på en ML-model kunne f.eks. være: »Brug kun modellen på billeder i sort-hvid«.

Performance på tværs af køn og aldersgrupper

Under punktet Factors skal udviklere notere, hvordan modellen klarer sig på tværs af f.eks. befolkningsgrupper og miljøer. En analyse af et billede kan f.eks. være påvirket af kameraets hardware, lysforhold og - ikke mindst - personen på billedets køn, alder og race.

DataTech

Artiklen her er fra DataTech, et nyt PRO-medie fra Ingeniøren om data og analytics. Vi giver dig inspirerende cases, nyheder og debat om alt fra machine learning­-modeller til dataetik.
Følg med på pro.ing.dk/datatech

Model-kortet skal desuden indeholde punktet Metrics, som skal rumme de parametre, som modellen er blevet bedømt efter og hvorfor. Dette vil variere mellem forskellige model-typer, bemærker forskerne - ligesom vurderingen af, hvilke parametre der er vigtige, vil afhænge af formålet og konteksten:

»For example, in a surveillance scenario, surveillors may value a low false negative rate (or the rate at which the surveillance system fails to detect a person or an object when it should have). On the other hand, those being surveilled may value a low false positive rate (or the rate at which the surveillance system detects a person or an object when it should not have). We recommend listing all values and providing context about which were prioritized during development and why.«

I forlængelse af de to punkter vil forskerholdet have, at hver model udstyres med en kvantitativ analyse, der viser, hvordan modellen så performer på de forskellige parametre for hver gruppe.

Hvis algoritmen således skal gætte på, om en person smiler - se eksempel længere nede - skal modelkortet vise, hvor godt den klarer sig på tværs af køn og aldersgrupper.

Kan ikke stå alene

For at gøre det muligt at verificere modellen foreslår forskerholdet, at man deler datasættet, som modellen er evalueret med. Tilsvarende vil modelkortet ideelt set indeholde så meget information om træningsdata, som det kan lade sig gøre.

Endelig skal udviklere skrive, hvilke etiske overvejelser der følger med modellen, og hvilke forbehold de vil tage sig. Dette kan f.eks. handle om, hvorvidt modellen bruger følsom persondata, samt risici ved at bruge modellen.

Selvom modelkortet kan øge transparens inden for machine learning-systemer, ser forskerne det ikke som sandsynligt, at værktøjet bliver gjort til en standard inden for den nærmeste fremtid.

»It is therefore important to consider model cards as one transparency tool among many, which could include, for example, algorithmic auditing by third-parties (both quantitative and qualitative), “adversarial testing” by technical and non-technical analysts, and more inclusive user feedback mechanisms,« skriver forskerne.

Et af to eksempler på, hvordan forskerne forestiller sig model-kortet. Denne handler om en model, der skal identificere smil. Modellen er trænet på CelebA datasættet, der består af billeder af kendte mennesker.

Denne artikel stammer fra PRO-mediet DataTech. Læs den fulde version her. (kræver abonnement)

1 kommentar.  Hop til debatten
Debatten
Log ind for at deltage i debatten.
settingsDebatindstillinger
1
24. januar 2019 kl. 15:24

og det kommer google til at tænke på efter at have solgt AI til alle mulige formål :)