bloghoved erik david johnson

Dataetik på Dansk

Regeringen nedsatte for kort tid siden en ny ekspertgruppe i dataetik, der skal udtænke nationale retningslinjer for dataetik. Jeg har æren af at være udpeget til at sidde som fast medlem af gruppen og efter at nu indledende at have været en del af processen, fyldes jeg allerede med optimisme og ambitioner.

Dataetik i den danske model

En stor udfordring for Danmark er, at mens at vi her i landet har høje ambitioner for hvordan der arbejdes med data på en etisk forsvarligt måde, er der andre lande og organisationer, som ikke nødvendigvis har den samme balancering mellem etikken og det mere ensidige og direkte sigte på at lave som omfangsrige og effektive løsninger som muligt.

Kort sagt kan det ved første øjekast se ud som om det kan blive svært for os at konkurrere med deres løsninger, og samtidig hæve os over det dataetiske niveau vi kan se i dag – også ifm. indførelsen af GDPR, som også kan ses som en grundlinje vi gerne skulle hæve os over - ud fra devisen at selv om noget er lovligt er det ikke nødvendigvis etisk.

Danmark har tidligere udmærket sig ved CSR, som blev et nationalt kendetegn der har styrket vores nationale profil. Ambitionen er derfor nu at gøre det samme ift. dataetik, og i ekspertgruppen er der kreative kræfter og ambitioner bag denne tilgang.

En håndbog for praktikere

En af de ideer jeg selv arbejder med, er konceptet om en form for håndbog i hvordan man kan agere etisk når man arbejder med data i komplekse scenarier inden for områder som data science/Machine Learning/Kunstig Intelligens. Kort sagt går ideen på at lave et værktøj der er med til bottom-up at sikre at dem der sidder i virksomhederne og organisationerne og implementerer løsningerne, får en praktisk og meget konkret tilgang til at agere dataetisk, så løsningerne bliver udformet ud fra dataetiske principper indefra og ud. Indtil videre er de foreløbige emner jeg overvejer 'gennemsigtighed af modellen' og 'Bias i Feature Engineering'.

Bias i Feature Engineering

Jeg har selv stået bag flere succesfulde, prisvindende AI-drevne løsninger, og det har givet mig en klar opfattelse af at for hver succesfuld applikation af AI vi ser i dag, har overvægten af arbejdet været på den domænespecifikke ’feature engineering’ hvor man tager al den viden man allerede har og lægger ind i den transformation af data der skal sikre at AI/ML-modellen kan arbejde med disse - og uden at skulle lære noget vi allerede ved!

Det betyder at dette er også er en proces der er særligt sårbar for udviklerens egne partiske antagelser, fordomme, bias – kært barn har mange navne. Hvis der var retningslinjer på det praktiske niveau omkring hvordan man bedst kan undgå dette – særligt rettet mod den proces som Feature Engineering stiller udviklerne over for, kunne det være et værktøj der virkelig kunne hæve det dataetiske niveau.

Transparens/gennemsigtighed

På samme måde er det også muligt at lave et langt bedre informeret valg af AI/ML-model ud fra retningslinjer for forskellige domæners behov for transparens, sammen med en god oversigt over hvilke modeller der kan tilbyde hvilke niveauer af gennemsigtighed. Kunstige Neurale Netværk tilbyder ikke nogen særlig klar forklaring af hvordan den er nået frem til den interne vægtning, der gør at den gennem funktionsapproksimering kan generalisere på sine træningsdata, men alternative modeller såsom Random Forest gør dette bedre.

Et vigtigt skridt på vejen

Der er meget arbejde foran tilblivelsen af sådan en håndbog, lige som det er en krævende proces for ekspertgruppen at nå frem til de endelige anbefalinger, men udsigterne for en positionering af Danmark som det næste dataetiske fyrtårn er opstemmende. Der er meget vi kan gøre bedre, og jeg siger bestemt ikke at retningslinjerne er den fulde løsning på alle de dataetiske udfordringer vi står med nu og foran os, men det er et godt udgangspunkt og en god måde at sætte dagsordenen på tapetet, og oplyse den rette sti fremad for os, som en nation der både nu og i fremtiden kommer til at have data som vores vigtigste råstof.

Læs mere om den nye ekspertgruppe i dataetik her: http://dataetikdk.dk/

Kommentarer (25)
Kenn Nielsen

..sidder jeg med følelsen af, at dette er starten på en byge af (parts)indlæg, i diverse medier fra "Big-data missionærer", som skal bearbejde folkestemningen forud for en lovgivning baseret på en "ekspertgruppe", der - mere eller mindre - er bestilt til at belære os om hvorfor det nu lige er, at uetisk omgang med personlige oplysninger sagtens kan stemples som dataetisk korrekt.

Vupti ! Nyt ord - Problem løst.

På samme måde som en løgn fortalt af vigtige mennesker kun er nødløgn, og at offentlighedslovens formål er at beskytte statsapperatet imod offentligheden.

Gad vide om det er min sølvpapirsparabol, som skal justeres.....

K

Anne-Marie Krogsbøll

Hvorfor....


Det er sikkert bl.a. fordi, de inviterede ikke omfatter oplagte kandidater, som kunne sætte lidt kritiske spørgsmålstegn ved ministerens dagsorden. Det virker nærmest som om, man helt bevidst har undgået sådanne forstyrrende elementer.

Jeg søgte aktindsigt i det kommisorium, som ekspertgruppen skal arbejde efter. Jeg fik dette svar:

"Kommissorium for ekspertgruppe om dataetik
For så vidt angår anmodningen om aktindsigt i kommissorium for ekspertgruppe om dataetik findes der ikke et sådant i journaliserings-systemet.
Som det fremgår af aktlisten, har Erhvervsministeriet identificeret et kommissorium for regeringens arbejde med dataetik (dokumentnr. 18/00918-3 med filtitlen ”Bilag C: Kommissorium vedr. dataetik”).
Erhvervsministeriet har undtaget dette dokument fra aktindsigt, jf. offentlighedslovens § 24, stk. 1, nr. 2, hvorefter retten til aktindsigt ikke omfatter interne dokumenter og oplysninger, der udveksles mellem forskellige ministerier på et tidspunkt, hvor der er konkret grund til at antage, at en minister har eller vil få behov for embedsværkets rådgivning og bistand.
Det undtagne dokument indeholder ikke oplysninger om sagens faktiske grundlag, der er relevante for sagen, eller oplysninger om eksterne faglige vurderinger, og som efter offentlighedslovens § 28, stk. 1, vil skulle med-deles uanset bestemmelsen i lovens § 24, stk. 1, nr. 2."

Det kan jo godt ligesom give anledning til lidt mistro, at man synes, at baggrunden for denne gruppe skal hemmeligholdes.....

Spørgsmål til Erik David Johnson: Vil du fremlægge det oplæg, I som gruppe har fået for den opgave, I skal løse? Det skulle vel ikke være noget med at finde ud af, hvor meget dataetik, der kan blive råd til, uden at det spænder ben for nogen projekter? Eller er jeres primære opgave at være ministeriets dataambassadører overfor befolkningen?

Aktindsigt i gruppens budget blev besvaret med:
"Budget for ekspertgruppe om dataetik
For så vidt angår anmodningen om aktindsigt i budget for ekspertgruppe om dataetik har Erhvervsministeriet identificeret et dokument med budget for datatik (dokumentnr. 17/09073-1 med filtitlen ” Dataetik budget.xlsx”).
Erhvervsministeriet har undtaget dokumentet fra aktindsigt, idet der er
tale om et internt dokument, der ikke er afgivet til udenforstående, jf. offentlighedslovens § 23, stk. 1, nr. 1."

Kan nogen forklare mig hvilke militærhemmeligheder, der kan gemme sig i disse akter, som kan begrunde, at befolkningen - os, som betaler gildet og lægger data til - ikke har ret til at se de bagvedliggende akter? For en ting er, at ministeriet måske (af en eller anden mærkværdig grund) har ret til at mørklægge dem - en anden ting er, om de så også har en god grund til at gøre det.

Anne-Marie Krogsbøll

Jeps - indtil det modsatte er bevist...


Forstået på den måde, at i mine øjne er det i sig selv etisk "udfordret" og mistænkeligt, at man mørklægger sådanne akter. For hvad kan grunden være - når man samtidig ustandseligt tuder befolkningen ørerne fulde om den vigtige tillid og åbenhed på dataområdet? Vi kan ikke engang få at vide, hvilke tanker regeringen har gjort sig om dataetik? Det er skummelt!

Anne-Marie Krogsbøll

Mange tak, Jesper Frimann - det havde jeg ikke set. Der er noget at gå i gang med at drøvtygge. Men kommissoriet er fra 24/4 og ministeriets svar til mig er over en måned gammelt - så man har åbenbart udarbejdet kommissoriet, længe efter at gruppen er inviteret og nedsat. Jeg ved ikke, om det er den almindelige måde at gøre det på.

Nu mangler vi så bare, at de også lægger budgettet frem.

Kan nogen hjælpe mig med, hvordan jeg kan downloade det pågældende dokument? Jeg kan ikke lige se en mulighed.

Jacob Saaby Nielsen

Jeg kan ikke lade være med, at undre mig over:

  • Hvor er filosoffen?
  • Hvor er sociologen?
  • Hvor er antropologen?
  • Hvor er juristen?
  • Hvor er sølvpapirshatten?

Altså, de der fagfolk, som har en anden faglig indgang til det her med data, og, som måske har en baggrund hvor etik og moralfilosofi er en fast del af deres virke (siger jeg, uden helt at kende medlemmernes baggrunde, så meget står der ikke om dem).

Hvor er dem, som ikke nødvendigvis er tech-orienterede, men menneske- og samfundsorienterede?

Hvor er dem, som skal forstyrre de tech-positive, så resultatet bliver mere robust?

De mangler.

Andreas Kirkedal

Uanset at jeg deler nogle af de betænkeligheder som andre giver udtryk vil jeg gerne opfordre til at udvide 'Bias i Feature engineering' til også at omfatte de mere subtile former for bias der er i data.
F.eks. hvis man træner et system til at vurdere jobkandidater til en programmørstilling på historiske ansættelsesdata fra de sidste 30 år kan man sagtens forestille sig at mænd vil få en højere score end kvinder pga. den skæve fordeling mellem køn i branchen. En vigtig pointe her er også at selvom man ikke må inkludere køn i vurderingen kan der være signaler i andre features der korrelerer næsten 1:1 med køn.
Den næste opfordring er at eksplicitere gennemsigtighedskravene til en model. Der forskes aktivt i analysen af deep learning modeller med LIME som et udemærket eksempel og hvis nogle krav/opfordringer kan give en rettesnor for udviklingen.
Sidst, men ikke mindst bør der også være en guide til hvordan man bedst (etisk+juridisk) overholder GDPR for startups/hobby/garageprojekter.

Mogens Bluhme

Modstykket er diversitet på flere niveau'er, både i data og de personer, som indsamler data og de, som behandler dem og udvikler algoritmer.

Google's første generation classifier kategoriserede flere sorte som gorillaer, stort set alle typer software i biler har store problemer med talegenkendelse af kvindestemmer, Palantir har i flere byer udviklet software til at forudse hvem, der ville begå kriminalitet, men det har vist sig at være fordomsfuld over ikke-hvide.

Der er tilsyneladende et trade-off mellem predictability og explainability.

Når AI er med til at træffe beslutninger af betydning for mennesker må man stille nogle krav med vægt på explainability.

Problemet med mønstergenkendelse er undtagelseshåndteringen. Neurale net fanger typiske tilfælde ret godt men er ikke gode til at spotte undtagelser. Hvis en minoritet er underpræsenteret i datasættet, er forudsigeligheden tilsvarende mere usikker og det kan udmønte sig i stereotyper på et tyndt grundlag.

Bayesian learning i classifiers har den fordel - også i modsætning til frekvens-statistikken - at usikkerheden følger med når datasættet øges og man er mere bevidst om den.

Der findes sågar en tænketank, der gør sig i diversitet og diskrimination i AI - diversity.ai.

Andreas Kirkedal

Mht. til talegenkendelse og kvinder er der en teknisk årsag som er forklaret her
Ja, svaret er altid mere/bedre data og øget diversitet er et åbenlyst modsvar, men det kan 1) være en udfordring at finde ud af at man mangler diversitet (ikke i dine eksempler) og 2) svært og dyrt at finde data til at dække diversiteten.
Jeg er enig i at der skal være krav om explainability og det jeg håber kan komme ud af gruppen er et bud på de krav for jeg tror på et tidspunkt at de krav vil kunne blive opfyldt for neurale net.

Jacob Saaby Nielsen

Nå - Gry Hasselbalch med en humanistisk baggrund er da med - har sammen med Pernille Tranberg skrevet Dataetik - en konkurrencefordel.

Så det er ikke korrekt at der er "bias" i valget af udvalgssmedlemmer.

Jeg forholder mig sådan set ikke så meget til bias. Jeg forholder mig til, at dem, som er med i den gruppe, virker til at være IT mennesker.

Der bør være ikke-IT mennesker med. Det, de tager udgangspunkt i, er måske nok data som artefakten i sig selv.

Men det, de egentlig beskæftiger sig med, er nogle langt bredere menneskelige og samfundsmæssige emner. Nu ved jeg som sagt ikke hvad deres baggrund er, i detaljer.

Men der kunne sagtens være værdi i, at:

  • Have en/flere filosofisk uddannede med til, at vende emnerne ift. klassiske etikker, eksistentialisme, politisk etc.
  • Have en sociolog med til, at prøve at forklare hvad der sker med de her ting, når mange mennesker bliver indblandet.
  • Have en antropolog med til, at vende det i et socialt og kulturelt perspektiv.

Etc.

Folk, som egentlig ikke tænker IT. Men tænker samfund, menneske, socialitet og politik, og formår at gøre det på et højt fagtligt plan.

Det er jo det, de reelt diskuterer. Det er der, konsekvenserne kommer til, at udspille sig.

Mogens Bluhme

Derfor undrer det mig i hvor lille grad man gør brug af uafhængige forskere fra universiteterne - det gælder ikke kun denne sag men også hvorfor én som vidste meget om sundhedsplatformen, Jørgen Bansler, ikke var med indover.

Og korrekt - antropologer og filosoffer fra univesiteter er også sjældent set i sådanne udvalg.

Det kan undre, at skiftende regeringer taler om nyttiggørelse af humaniora - altså at de skal ud og formidle.

Det nytter jo ikke hvis man ikke inviterer dem!

Bjarke Jørgensen

Jeg blev faktisk rigtig glad for at læse din kommentar. Grunden er at jeg er uddannet filosof med speciale i teknologifilosofi (Big Data og etik), og jeg undrer mig ligeledes over den skare af folk man har udvalgt.

Data-etik har det med at blive meget konkret, og det er for så vidt godt nok - i første omgang. Hvordan og under hvilke forhold bliver data indsamlet, hvem har adgang, hvordan er sikkerheden - osv. Alle relevante spørgsmål der siger noget om det konkrete aktionsbaserede niveau for omgangen med data.

Men, og det er her jeg savner de fagfolk du nævner, hvad med de store perspektiver, de der fortæller noget mere generelt om den datadrevne verden vi bevæger os ind i? Hvad betyder det egentlig for os, vores forhold til hinanden og samfundet som helhed at kunstig intelligens er en realitet, at datas forgængelighed snart er en myte og så mange andre spørgsmål...

Det er spørgsmål der er ekstremt vigtige for at kunne forholde sig til det aktionsbaserede niveau, for hvis vi indskriver os selv - automatisk - i den datadrevne virkelighed, uden at tage stilling til om det bliver gjort i overensstemmelse med vores værdier som mennesker, tror jeg vi kommer til at fortryde det.

Anne-Marie Krogsbøll

Jeg er ked af, at de ikke har inviteret dig, Bjarke Jørgensen. Eller Thomas Birk Kristiansen, Jesper Lund, Rasmus Malver, Christian Panton, og alle de andre fornuftige folk, som jeg lige nu har glemt. Folk, som ikke er professionelt ansat med en bestemt dagsorden for øje, men som "blot" interesserer sig for området ud fra interesse for og bekymring for menneskerettigheder, retssikkerhed og demokrati, og bruger deres fritid på sagen af den grund.

Så vidt jeg kan se, er der vist ikke en eneste, som ikke på en elle anden måde har et eller andet professionelt i klemme?

Log ind eller Opret konto for at kommentere