Sådan kommer Horsens’ bedrageri-algoritme til at se ud
Horsens Kommune har indledt arbejdet med en algoritme, der på baggrund af henvendelser fra borgere kan undersøge, om andre borgere sandsynligvis snyder med sociale ydelser.
Andre kommuner, såsom København, giver også borgerne mulighed for at kaste mistanke på deres kommunefæller.
Men det er nu ikke, fordi algoritmen forventes at kunne gøre arbejdet bedre end mennesker.
Det forklarer Mads Lund Torslev, som er programleder for Udvikling, It- og Digitaliseringsafdelingen i Horsens Kommune.
»Tanken i projektet er, at vi vil guide vores sagsbehandlere i prioriteringen af opgaverne. Når de får en ny opgave – når algoritmen er i mål – så går den ind og giver en form for indikator på, at dette er en ny sag, som sandsynligvis er en socialbedrager. Den sag bør sagsbehandleren bruge mere tid på end andre opgaver, hun lige har fået ind.«
Lovningen er ikke klokkeklar på området, så der skal under alle omstændigheder et skøn indover.
»Vores datasæt er ikke godt nok til, at algoritmen kan gøre arbejdet lige så godt som en sagsbehandler.«
Inspiration fra Daredisrupt og Watson
Inspirationskilden er blandt andre Kommunernes Landsforenings visionsrapport fra 2018, ‘Kommunernes teknologispring,’ forfattet af konsulentfirmaet Daredisrupt, der er knyttet til miljøet omkring kursusvirksomheden Singularity University.
»Jeg er en tech-nørd, og vi ser på de strømninger, der er. De store leverandørers produkter, som IBM og Amazon, er blevet kørt op i tech-medierne. Det er noget, man følger med i og reflekterer over, hvad det kan gøre for os. Jeg deltog i et big data/machine learning-kursus for 18 måneder siden. Der prøvede vi IBM’s Watson af og kunne se, hvor let det var at tage velstrukturerede data og få skabt gode løsninger på det.«
Ifølge DR opdagede Udbetaling Danmark og kommunerne i 2017 socialt bedrageri og fejl i sagsbehandlingen til en værdi af 468 millioner kroner.
Men det er ikke pengene, der driver værket, beretter Mads Lund Torslev.
»Vores projekt er ikke bygget op på den måde. Vi har et professionelt team, som arbejder på højtryk med at tage alle de sager, der kommer ind. Vi prøver at skabe en løsning, hvor de lettere kan prioritere deres tid. Så det er ikke, fordi jeg forventer, at løsningen er en ‘revolution.' Vi guider dem bare til at prioritere mellem de indkomne opgaver, men forventer ikke, at vi finder flere penge, end det vi finder i forvejen. Det er ikke en del af målsætningen.«
Derfor er der heller ingen grund til at overveje forholdet mellem projektets udgifter og det beløb, algoritmen er med til at kradse ind, når udviklingsarbejdet er færdigt.
Det er ny teknologi, som kan anvendes i det offentlige.
»Vi skal hele tiden prøve nye teknologier af og se, hvor er deres fordele i forhold til de omkostninger, der er forbundet med det. Det aktuelle projekt er et ‘proof-of-concept’ – et pilot-projekt – for at finde ud af, om denne teknologi giver mening så tæt på sagsbehandlingen. Jeg har kørt et machine learning-projekt tidligere, som vi har lært en hel del af. Vi har skåret en masse af startomkostningerne væk.«
Erfaringer genbruges
Det betyder, at det bliver et relativt billigt projekt, når det hele står færdigt. Det tidligere projekt gik ud på at få indkomne dokumenter frem til rette afdeling og sagsbehandler ved at optræne en machine learning-algoritme med 5-10 millioner historiske dokumenter over 10 år.
»Dataforberedelsen var den største del af det projekt, over halvdelen af tiden. I det nye projekt kan vi springe det skridt over, for vi har i forvejen fundet ud af, hvad er det for nogle datasæt, vi vil arbejde med. Forberedelsen går fra seks måneder til én i arbejdstid.«
Datakilderne er borgerens indkomst, udbetalinger fra Udbetaling Danmark, kommunale ydelser, adressehistorik og civilstand.
»Sagsbehandlerne må godt vide meget pr. sag, men når vi gennemfører algoritmen og aggregerer data, har vi ikke længere brug for personhenførbare data. Navn, adresse og CPR fjernes, så algoritmen ikke får disse data.«
Ikke så indgribende i forhold til GDPR
Hvordan forholder I jer til, at de samme oplysninger stadig findes i jeres fagsystemer i identificeret tilstand?
»Vi håndterer det på almindelige ‘kassationsmæssig’ vis: Så længe sagen er åben, er den tilgængelig for de medarbejdere, der har lov til at tilgå sagen, og når den er afsluttet, bliver den kasseret efter fem år. Det er ikke anderledes end alle andre sagsbehandlingsprocesser.«
GDPR-forordningen kræver, at der skal foretages en konsekvensanalyse, og det arbejde indledes i kommunen i starten af juni i år.
Men Mads Lund Torslev mener ikke, at der kræves en fremlæggelse af metode og lovgrundlag til byrådet.
»Jeg ser det ikke så indgribende. Vi går først ind og vurderer sagen, når den ‘er her.’ Vi tilgår machine learning som normal statistik-håndtering. Man skal være lidt påpasselig med at råbe: ‘Ulven kommer’ i denne sammenhæng. Vi foretager kun en vurdering, når der er en henvendelse. Det ville være noget andet, hvis vi kørte alle kommunens borgere igennem algoritmen.«
Men en konsekvensanalyse vil dog altså blive produceret og fremlagt for de relevante ledelseslag i kommunen. Om det også skal inkludere det politiske lag, er ikke afgjort endnu.
Algoritmen vil lære ud fra den feedback, den får fra sagsbehandleren, og har derfor ikke behov for at se på en kontrolgruppe af uskyldige borgere i kommunen til optræning. Og den tager udgangspunkt i de historiske afgørelser.
»Det er vores bedste bud på, hvordan vi kan bruge AI uden at komme i problemer i forhold til lovgivning og etik.«
Algoritme-arbejde udføres som forskning
Selve arbejdet med algoritmen skal udføres som forskning af to specialestuderende på Aarhus Universitet på almindelige forskningsetiske præmisser.
»Jeg synes, teknologien er umoden i det offentlige. Jeg vil gerne skabe gennemsigtighed i forhold til fremgangsmåden. Vi gør det så videnskabeligt korrekt, som det kan gøres. Vi er i starten i forhold til machine learning i det offentlige, så det giver god mening at inddrage studie- og forskningsmiljøer, så vi gør tingene oplyst og korrekt.«
Hvordan vil I undgå bias – indbyggede fordomme – i algoritmen?
»Vi slipper for nogle problematikker ved for eksempel ikke at tage navne og adresser med. Så der er ikke viden i algoritmen, om der optræder et dansk-klingende navn eller ej. Vi reducerer referencer til etnicitet. Om man har et bestemt slags navn skal jo ikke afgøre sagen. Med hensyn til boligområde kunne vi fjerne adressen, men kunne også på anden vis beskrive området geografisk.«
De to studerende, der skal udarbejde algoritmen, har også fokus på bias-problematikken i deres arbejde, bedyrer Mads Lund Torslev.
Lovgivningen siger, at dataindsamling skal være ‘minimal og proportional.’ Hvordan opfylder I de to krav med hensyn til algoritmen?
»Når algoritmen er blevet god nok, skal vi ikke holde på data længere end nødvendigt. Hvis data ikke længere er relevante, skal de kasseres. Når data er analyseret, kan vi ikke gå tilbage og se, hvem der var hvem. Det lugter lidt af ‘privacy by design’. Når vi derudover er tilfreds med modellen, skal vi ikke beholde de resterende historiske data længere end nødvendigt. Når vi er tilfredse, skal vi kassere data. Algoritmen indeholder ikke de pågældende data, men har blot ‘smagt’ på dem.
Risikoanalyse skal belyse tilbagesporingsproblem
Men i megen machine learning-udvikling har man i det løbende arbejde et træningssæt og testsæt. Så længe man har træningssættet, er der måske dimensioner nok til at identificere de oprindelige personer – måske har man et træningssæt liggende, hvor data kan føres tilbage til borgere?
»Det må være en del af risikoanalysen, som vi skal i gang med. Vi laver altid risikoanalyse i vores projekter, og lige nu er vi i gang med at definere projektet. I den forbindelse ser vi på, hvilke risici der er forbundet med det, og en risiko kunne netop være at finde tilbage til den givne person. Så skal vi se på, hvor sandsynligt det er, og ud fra den betragtning skal vi gøre nogle greb på at reducere den sandsynlighed.«
Er der ikke en risiko for misbrug på baggrund af personlige hævnmotiver?
»Jo. Det har været fremme, at én ud af seks anonyme henvendelser er begrundet, så det vidner om, at der er nogle borgere, der chikanerer andre borgere. Men når vi behandler en sag, er det efter objektive vilkår. Vi tager ikke fat i folk, hvis det er en ubegrundet mistanke.«
Men er der ikke stadig risiko for misbrug?
»Det er politiets ansvar at stoppe borgere, der chikanerer andre. Der er instanser, der kan hjælpe og beskytte den givne borger,« slutter Mads Lund Torslev.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.