Forsker: Data-profilering af arbejdsløse kan ikke både være effektiv og gennemsigtig
Det er svært at få kunstig intelligens til at give et godt bud på, om en arbejdsløs borger er i risiko for langtidsledighed.
I hvert fald, hvis algoritmen også skal kunne give borgeren og sagsbehandleren en god forklaring på, hvorfor den pågældende er i risikogruppen.
Det er den paradoksale situation omkring et værktøj, som skal skabe dataprofiler af arbejdsløse på baggrund af personoplysninger.
Værktøjet kom offentligheden til kende, da Version2 skrev om sagen i maj måned i år i forbindelse med en ny lov om en aktiv beskæftigelsesindsats.
Værktøjet har dog eksisteret i en eller anden form siden 2014. Det er frivilligt at anvende, både for borger og sagsbehandler, og dets spådom står ikke alene i bedømmelsen.
I første omgang havde Datatilsynet - efter vejledning fra Styrelsen for Arbejdsmarked og Rekruttering (STAR), der står bag værktøjet - ikke taget stilling den del af lovforslagets bemærkninger, hvori det nævnes - nemlig på side 212.
Siden har Datatilsynet kigget nærmere på værktøjet, som det er beskrevet i lovforslaget. Tilsynet kunne for nylig konkludere, at værktøjet er inden for rammerne af GDPR-lovgivningen. Men at det også er væsentligt, at der løbende foretages en evaluering af anvendelsen af værktøjet, blandt andet med henblik på en vurdering af, om de anvendte variable i den matematiske model fortsat er relevante og brugen heraf sagligt begrundet, lyder det fra tilsynet.
En anden sag er, hvorvidt værktøjet kan bruges til noget i praksis, hvis det da skal følge almindelige regelsæt for algoritme-baseret beslutningsstøtte i den offentlige forvaltning.
Komplekse algoritmer og flere data er ikke uden omkostninger
Version2 har med baggrund i aktindsigt fra STAR bedt forsker og ph.d.-stipendiat Snorre Sylvester Frid-Nielsen fra Roskilde Universitet (RUC) om at vurdere algoritmen.
Konsulenter fra business intelligence-virksomheden SAS Institute A/S har udfærdiget algoritmen for STAR og beskrevet den i et bilag.
Snorre Sylvester Frid-Nielsens ph.d.-projekt er samfinansieret af RUC og STAR og omhandler adfærdsmæssig offentlig politik, big data og maskinlæring. Projektet har ikke noget at gøre med STAR's værktøj. Sammen med forskere fra en række andre danske universiteter har han eksperimenteret med anvendelsen af maskinlæring og offentlige registerdata for at give anbefalinger omkring langtidsledighed og relevante stillinger:
»Vores foreløbige resultater viser, at det er muligt at lave mere akkurate forudsigelser, end hvad der er dokumenteret i bilaget. Men vi anvender mere komplekse algoritmer og mere data – og det er ikke uden omkostninger.«
Bilaget fra STAR anvender statistiske beslutningstræer til at lave forudsigelserne. Den metodiske tilgang virker hensigtsmæssig, mener Snorre Sylvester Frid-Nielsen. Fordelen med statistiske beslutningstræer er, at læringsprocessen er forholdsvis let at fortolke. Det er muligt at følge trin for trin, hvordan algoritmen fordeler borgere i forskellige grupper for at nå frem til dens endelige forudsigelse af langtidsledighed.
Ulempen ved enkeltheden af statistiske beslutningstræer er, at de oftest fører til mindre akkurate forudsigelser sammenlignet med mere komplekse metoder.
»Vi finder for eksempel, at fejlraten kan formindskes ved at bygge en lang sekvens af ‘boosted decision trees’, hvor forudsigelserne forbedres ved at lære af de fejlklassificeringer, der blev begået i tidligere træer. Udfordringen er, at det bliver langt sværere at fortolke resultatet og dermed forklare de underliggende mekanismer, der fører til klassificeringen af den enkelte borger.«
STAR: Resultatet kan blive svært at fortolke
Version2 har bedt STAR om at kommentere Snorre Sylvester Frid-Nielsens betragtninger. På mail skriver styrelsen:
»Formålet med profilafklaringsværktøjet er at hjælpe borgeren til at forberede sig bedst muligt på et aktivt og jobrettet kontaktforløb og at etablere et fælles udgangspunkt for forløbet mellem borgeren og sagsbehandleren ift. de efterfølgende jobsamtaler.«
I denne sammenhæng er det derfor ikke kun modellens præcision, der giver værdi, men også om dens resultater kan fortolkes af sagsbehandleren i jobcentret og dermed danne et oplyst grundlag for samtalen med borgeren, og hvilken individuel tilrettelagt indsats som kan igangsættes, lyder synspunktet fra styrelsen.
»Når dette er sagt, så pågår der naturligvis en kontinuerlig proces, hvor vi genovervejer modellens brugbarhed og undersøger, om mere komplekse modeller er at foretrække. Her kan ulempen dog være, at resultatet kan blive sværere at fortolke og forklare for den enkelte borger.«
Spørgsmålet er, om det er kræfterne værd
Gennemsigtighed i forhold til, hvad der i en algoritme udpeger en borger, fremhæves igen og igen i krav til algoritme-støttede beslutninger.
Her mener Snorre Sylvester Frid-Nielsen, at tærsklen for en acceptabel fejlrate i bund og grund er subjektiv, så længe der ikke findes et konkret sammenligningsgrundlag. En høj grad af gennemsigtighed kan styrke legitimiteten af modellen blandt dagpengemodtagere og sagsbehandlere.
»Men spørgsmålet er, om det er det værd, hvis det betyder, at risikoen for fremtidig langtidsledighed ikke opdages, eller at folk som har en god chance for at komme hurtigt tilbage på arbejdsmarkedet, bliver unødigt stresset på grund af en fejlklassificering.«
En større præcision kunne efter Snorre Sylvester Frid-Nielsens mening opnås ved at træne algoritmen på hele befolkningen og benytte algoritmer som deep learning, der giver bedre resultater. Men det giver nye problemer:
»Der kan være juridiske og etiske udfordringer ved at kombinere data fra forskellige registre for at anvende dem til at understøtte borgernes beslutningstagning. Lovgivningsmæssigt beskytter GDPR blandt andet borgernes ret til at ‘blive glemt’ og være fri fra profilering. Tilføjelsen af flere dimensioner i træningsdataet øger risikoen for, at individer kan identificeres, selv om datasættet er blevet anonymiseret.«
Der er også andre problemstillinger, der gør sig gældende, mener Snorre Sylvester Frid-Nielsen:
»Bliver borgere mere motiveret i deres jobsøgning, hvis de får at vide, at de er i risikozonen for langtidsledighed, eller bliver de mere fatalistiske? Det er ikke kun et spørgsmål om algoritmer og data, men også menneskelig adfærd.«
Hvilken adfærd fører spådomme til
I Datatilsynets høringssvar til STAR står der blandt andet om den tilbagemelding, borgeren får fra værktøjet:
»Formuleringen af kvitteringsbrevet er forskellig, alt efter om analysen viser, at den pågældende har en forhøjet risiko for langtidsledighed eller ej. Hvis der er en sådan risiko, indeholder kvitteringen følgende afsnit:
‘Nogle ledige, der tidligere har svaret det samme som dig, eller som på andre måder ligner dig (fx hvad angår tidligere beskæftigelsesforhold), kan have oplevet en lidt længere vej til et nyt job. For at undgå dette er det vigtigt, at du forbereder dig grundigt til din første samtale med jobvejlederen. Det kan du f.eks. gøre ved at medbringe 3-5 konkrete stillinger, som du gerne vil søge inden for de næste 14 dage, eller som du allerede har søgt.’«
Der lægges altså ikke umiddelbart op til, at jobcenteret kan stille ekstraordinære tiltag på bordet til den ledige i risikogruppen, som eksempelvis efteruddannelse eller andet.
Det får Snorre Sylvester Frid-Nielsen til at komme med denne afsluttende kommentar:
»Vi kommer til at kunne lave bedre og bedre forudsigelser. Men vi har også brug for at tænke over, hvordan vi evaluerer de resultater, vi får. Det er ikke et spørgsmål om beregninger, men om, hvordan informationerne bliver fortolket, og hvilken adfærd de fører til, både af sagsbehandlerne og de ledige. Det har vi brug for mere viden omkring. Det er ikke bare maskinlæring, men også eksperimentelle undersøgelser og kvalitative data, hvor vi taler med de ledige.«

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.