Sådan kommer Horsens’ bedrageri-algoritme til at se ud


Horsens Kommune har indledt arbejdet med en algoritme, der på baggrund af henvendelser fra borgere kan undersøge, om andre borgere sandsynligvis snyder med sociale ydelser.
Andre kommuner, såsom København, giver også borgerne mulighed for at kaste mistanke på deres kommunefæller.
Men det er nu ikke, fordi algoritmen forventes at kunne gøre arbejdet bedre end mennesker.
Det forklarer Mads Lund Torslev, som er programleder for Udvikling, It- og Digitaliseringsafdelingen i Horsens Kommune.
»Tanken i projektet er, at vi vil guide vores sagsbehandlere i prioriteringen af opgaverne. Når de får en ny opgave – når algoritmen er i mål – så går den ind og giver en form for indikator på, at dette er en ny sag, som sandsynligvis er en socialbedrager. Den sag bør sagsbehandleren bruge mere tid på end andre opgaver, hun lige har fået ind.«
Lovningen er ikke klokkeklar på området, så der skal under alle omstændigheder et skøn indover.
»Vores datasæt er ikke godt nok til, at algoritmen kan gøre arbejdet lige så godt som en sagsbehandler.«
Inspiration fra Daredisrupt og Watson
Inspirationskilden er blandt andre Kommunernes Landsforenings visionsrapport fra 2018, ‘Kommunernes teknologispring,’ forfattet af konsulentfirmaet Daredisrupt, der er knyttet til miljøet omkring kursusvirksomheden Singularity University.
»Jeg er en tech-nørd, og vi ser på de strømninger, der er. De store leverandørers produkter, som IBM og Amazon, er blevet kørt op i tech-medierne. Det er noget, man følger med i og reflekterer over, hvad det kan gøre for os. Jeg deltog i et big data/machine learning-kursus for 18 måneder siden. Der prøvede vi IBM’s Watson af og kunne se, hvor let det var at tage velstrukturerede data og få skabt gode løsninger på det.«
Ifølge DR opdagede Udbetaling Danmark og kommunerne i 2017 socialt bedrageri og fejl i sagsbehandlingen til en værdi af 468 millioner kroner.
Men det er ikke pengene, der driver værket, beretter Mads Lund Torslev.
»Vores projekt er ikke bygget op på den måde. Vi har et professionelt team, som arbejder på højtryk med at tage alle de sager, der kommer ind. Vi prøver at skabe en løsning, hvor de lettere kan prioritere deres tid. Så det er ikke, fordi jeg forventer, at løsningen er en ‘revolution.' Vi guider dem bare til at prioritere mellem de indkomne opgaver, men forventer ikke, at vi finder flere penge, end det vi finder i forvejen. Det er ikke en del af målsætningen.«
Derfor er der heller ingen grund til at overveje forholdet mellem projektets udgifter og det beløb, algoritmen er med til at kradse ind, når udviklingsarbejdet er færdigt.
Det er ny teknologi, som kan anvendes i det offentlige.
»Vi skal hele tiden prøve nye teknologier af og se, hvor er deres fordele i forhold til de omkostninger, der er forbundet med det. Det aktuelle projekt er et ‘proof-of-concept’ – et pilot-projekt – for at finde ud af, om denne teknologi giver mening så tæt på sagsbehandlingen. Jeg har kørt et machine learning-projekt tidligere, som vi har lært en hel del af. Vi har skåret en masse af startomkostningerne væk.«
Erfaringer genbruges
Det betyder, at det bliver et relativt billigt projekt, når det hele står færdigt. Det tidligere projekt gik ud på at få indkomne dokumenter frem til rette afdeling og sagsbehandler ved at optræne en machine learning-algoritme med 5-10 millioner historiske dokumenter over 10 år.
»Dataforberedelsen var den største del af det projekt, over halvdelen af tiden. I det nye projekt kan vi springe det skridt over, for vi har i forvejen fundet ud af, hvad er det for nogle datasæt, vi vil arbejde med. Forberedelsen går fra seks måneder til én i arbejdstid.«
Datakilderne er borgerens indkomst, udbetalinger fra Udbetaling Danmark, kommunale ydelser, adressehistorik og civilstand.
»Sagsbehandlerne må godt vide meget pr. sag, men når vi gennemfører algoritmen og aggregerer data, har vi ikke længere brug for personhenførbare data. Navn, adresse og CPR fjernes, så algoritmen ikke får disse data.«
Ikke så indgribende i forhold til GDPR
Hvordan forholder I jer til, at de samme oplysninger stadig findes i jeres fagsystemer i identificeret tilstand?
»Vi håndterer det på almindelige ‘kassationsmæssig’ vis: Så længe sagen er åben, er den tilgængelig for de medarbejdere, der har lov til at tilgå sagen, og når den er afsluttet, bliver den kasseret efter fem år. Det er ikke anderledes end alle andre sagsbehandlingsprocesser.«
GDPR-forordningen kræver, at der skal foretages en konsekvensanalyse, og det arbejde indledes i kommunen i starten af juni i år.
Men Mads Lund Torslev mener ikke, at der kræves en fremlæggelse af metode og lovgrundlag til byrådet.
»Jeg ser det ikke så indgribende. Vi går først ind og vurderer sagen, når den ‘er her.’ Vi tilgår machine learning som normal statistik-håndtering. Man skal være lidt påpasselig med at råbe: ‘Ulven kommer’ i denne sammenhæng. Vi foretager kun en vurdering, når der er en henvendelse. Det ville være noget andet, hvis vi kørte alle kommunens borgere igennem algoritmen.«
Men en konsekvensanalyse vil dog altså blive produceret og fremlagt for de relevante ledelseslag i kommunen. Om det også skal inkludere det politiske lag, er ikke afgjort endnu.
Algoritmen vil lære ud fra den feedback, den får fra sagsbehandleren, og har derfor ikke behov for at se på en kontrolgruppe af uskyldige borgere i kommunen til optræning. Og den tager udgangspunkt i de historiske afgørelser.
»Det er vores bedste bud på, hvordan vi kan bruge AI uden at komme i problemer i forhold til lovgivning og etik.«
Algoritme-arbejde udføres som forskning
Selve arbejdet med algoritmen skal udføres som forskning af to specialestuderende på Aarhus Universitet på almindelige forskningsetiske præmisser.
»Jeg synes, teknologien er umoden i det offentlige. Jeg vil gerne skabe gennemsigtighed i forhold til fremgangsmåden. Vi gør det så videnskabeligt korrekt, som det kan gøres. Vi er i starten i forhold til machine learning i det offentlige, så det giver god mening at inddrage studie- og forskningsmiljøer, så vi gør tingene oplyst og korrekt.«
Hvordan vil I undgå bias – indbyggede fordomme – i algoritmen?
»Vi slipper for nogle problematikker ved for eksempel ikke at tage navne og adresser med. Så der er ikke viden i algoritmen, om der optræder et dansk-klingende navn eller ej. Vi reducerer referencer til etnicitet. Om man har et bestemt slags navn skal jo ikke afgøre sagen. Med hensyn til boligområde kunne vi fjerne adressen, men kunne også på anden vis beskrive området geografisk.«
De to studerende, der skal udarbejde algoritmen, har også fokus på bias-problematikken i deres arbejde, bedyrer Mads Lund Torslev.
Lovgivningen siger, at dataindsamling skal være ‘minimal og proportional.’ Hvordan opfylder I de to krav med hensyn til algoritmen?
»Når algoritmen er blevet god nok, skal vi ikke holde på data længere end nødvendigt. Hvis data ikke længere er relevante, skal de kasseres. Når data er analyseret, kan vi ikke gå tilbage og se, hvem der var hvem. Det lugter lidt af ‘privacy by design’. Når vi derudover er tilfreds med modellen, skal vi ikke beholde de resterende historiske data længere end nødvendigt. Når vi er tilfredse, skal vi kassere data. Algoritmen indeholder ikke de pågældende data, men har blot ‘smagt’ på dem.
Risikoanalyse skal belyse tilbagesporingsproblem
Men i megen machine learning-udvikling har man i det løbende arbejde et træningssæt og testsæt. Så længe man har træningssættet, er der måske dimensioner nok til at identificere de oprindelige personer – måske har man et træningssæt liggende, hvor data kan føres tilbage til borgere?
»Det må være en del af risikoanalysen, som vi skal i gang med. Vi laver altid risikoanalyse i vores projekter, og lige nu er vi i gang med at definere projektet. I den forbindelse ser vi på, hvilke risici der er forbundet med det, og en risiko kunne netop være at finde tilbage til den givne person. Så skal vi se på, hvor sandsynligt det er, og ud fra den betragtning skal vi gøre nogle greb på at reducere den sandsynlighed.«
Er der ikke en risiko for misbrug på baggrund af personlige hævnmotiver?
»Jo. Det har været fremme, at én ud af seks anonyme henvendelser er begrundet, så det vidner om, at der er nogle borgere, der chikanerer andre borgere. Men når vi behandler en sag, er det efter objektive vilkår. Vi tager ikke fat i folk, hvis det er en ubegrundet mistanke.«
Men er der ikke stadig risiko for misbrug?
»Det er politiets ansvar at stoppe borgere, der chikanerer andre. Der er instanser, der kan hjælpe og beskytte den givne borger,« slutter Mads Lund Torslev.
- Nyt Dataetisk Råd har ingen svar på spørgsmål om indsigt i AI-beslutninger - men en 'bekymringspostkasse'
- Forsker: Digitalisering kan påvirke tilliden til det offentlige negativt
- IBM går med i Linux-samarbejde om troværdig AI
- Ny lov: Arbejdsløse skal dataprofileres og samkøres i landsdækkende register
- Professor: Ingen snuptags-løsninger med kunstig intelligens i forvaltning og sundhedsvæsen
- Nordea vil dele kundeoplysninger med Aarhus Kommune - kræver ny lovhjemmel
- Kommunalpolitikere forlanger redegørelse efter Netflix-overvågning af syg borger
- Debat om kunstig intelligens og borgerdata: »Vi skal lige stoppe op og tænke«
- Eksperter: Frederiksbergs sundheds-samtykke overtræder persondatalov
- Frederiksberg Kommune til forældre: Sundhedspleje til dit barn? Hit med person-data
- Alexandra Instituttet og Aalborg Universitet vil bringe kunstig intelligens til små firmaer
- Denne artikel
- Kommuner: Vi har ikke brug for mere digital overvågning af borgerne
- Adgang til mobilmaster og rejsekort: Kommuner vil have flere værktøjer imod socialt bedrageri
- Blockchain til karakterbog og Alexa overvåger børnene: Her er kommunernes digitale vision
- emailE-mail
- linkKopier link

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.
Fortsæt din læsning
- Sortér efter chevron_right
- Trådet debat
Så ser det ud til at koden til algoritmen er frit tilgængelig:https://github.com/horsens-mlt/kgml
Læg i øvrigt mærke til spinformuleringen (jeg går ud fra, at det er ministrenes), at det kan tænkes, at maskinen behandler nogle befolkningsgrupper bedre end andre - hvor det ud fra eksemplet jo altså handler om, at maskinen diskriminerer, og behandler nogle befolkningsgrupper dårligere end andre.
Det her er væsentligt.
For i den ideelle situation forventer man at man fortsætter som hidtil, hvis ikke "maskinen" siger noget. Når den så "pipper", så kan man yde en bedre service (f.eks. hurtigere indsats, eller ellers uopdaget problem bliver erkendt).
Men i praksis overser man (mindst) tre effekter:
- Maskinens "pip" tager ressourcer, også når den tager fejl, og vil derfor kunne fortrænge brugen af samme ressourcer, hvor de ellers ville være til rådighed.
- Maskinens "pip" vil næppe blive ignoreret (viser al erfaringer), hvilket i bedste fald gør alt dyrere, i værste fald se 1).
- Hvis maskinen gør det godt, så vil mangel på "pip" medføre, at man vil begynde at tvivle på ens egne vurderinger og fornemmelser, hvilket vil betyde at man bliver mindre tilbøjelig til at igangsætte behandling.
Ad. 3, så vil der kan være en modsatrettet effekt af, at man ikke reagerer så ofte i situationer, hvor det ikke er nødvendigt, men der er stadig tale om, at man som menneske uværgerlig kommer til at uddelegere kompetence til maskinen.
Så for det første, så bliver det nok dyrere (se 2 og kommentaren til 3), og for det andet, så vil det stille nogle grupper ringere (se 1+3).
Det kan godt være, at det stadig er en god ide, men det er ikke en "gratis omgang", og det er ikke en "hovedet under armen og fuld fart frem"-situation. Nogen kommer til at betale, og det har bare at være prisen værd!
Politiken har i dag interview med de to digitale frontsoldater Sophie Løhde og Ellen Thrane Nørby. Her kan man blandt andet læse:
"Maskinen, der lytter med på alarmopkald, er udviklet af det danske firma Corti og er blevet trænet i hovedstadsregionen. Hvis en grønlænder eller somalier, der ringer til 112, udtrykker sig anderledes end den gennemsnitlige hovedstadsdansker, kan maskinen have sværere ved at genkende det mønster, der tyder på et truende hjertestop. Cortis maskine kan derfor behandle dele af befolkningen bedre end andre. Men det indebærer ikke, at Cortis maskine skal stoppes. Den skal tværtimod bruges så meget som muligt, så den får flere data at arbejde med og lærer flere befolkningsgrupper bedre at kende, siger Sofie Løhde. Ellen Trane Nørby supplerer: »Med den power, vi har som stat, og med den nye strategi i hånden skal vi turde sige, at vi tror på teknologien, og at den nu skal rulles ud til akutberedskabet i hele landet«. Det skyldes også, at Corti »lige nu ser ud til at blive en kæmpestor eksportsucces for Danmark. Vi skal også sørge for, at den slags virksomheder ikke må flytte til Silicon Valley for at få kapital og størrelse til at udbrede de gode ideer«, tilføjer hun."
Kan dette tolkes på anden måde, end at såfremt Corti fejlbehandler en grønlænder eller en somalier, så er det helt ok, for så kan det bruges til at træne algoritmen, og da der er store eksportindtægter på spil, så overrider de økonomiske hensyn de etiske?
Læg i øvrigt mærke til spinformuleringen (jeg går ud fra, at det er ministrenes), at det kan tænkes, at maskinen behandler nogle befolkningsgrupper bedre end andre - hvor det ud fra eksemplet jo altså handler om, at maskinen diskriminerer, og behandler nogle befolkningsgrupper dårligere end andre.
Sophie Løhde erkender blankt, at teknologien rejser en lang række etiske problemer. Men hun ser det som en mulighed: Hvis Danmark formår at finde løsningerne, så ligger verdensmarkedet nærmest åbent"
Læg mærke til fokus: Verdensmarkedet - ikke den gode behandling.
"Når det gælder egentlig sagsbehandling, er ministrene derimod helt faste i kødet. Her kan man ikke acceptere, at maskinerne stiller nogle bedre end andre, fastslår Sophie Løhde."
Så afgørelser om, om man er ved at dø af hjertestop, er ikke "egentlig sagsbehandling"? Hvad er "egentlig sagsbehandling" egentligt?
Et andet problem er, om teknologien flytter sig hurtigere, end vi kan nå at følge med rent etisk. Det skal hele tiden være en del af diskussionen."
Og hvordan er det så en del af diskussionen? Bremser det på nogen måde toget? Ikke så vidt, jeg kan se. Denne sætning er bare en pyntestikning på den overordnede plan, som er skruppelløs fuld fart ud over stepperne.
Det anføres ganske vidst, at maskinen indtil videre kun skal bruges til beslutningsstøtte - men hvad mon der sker, når den har været i brug et stykke tid i en overtravl akuttelefon? Mon ikke den hurtigt vil blive tillagt mere og mere "beslutningsmagt"?
Politiken har samtidig denne historie:https://politiken.dk/indland/art7083695/Partier-om-skjulte-donationer-p%C3%A5-100.000-kroner-til-Venstre-profil-Den-slags-g%C3%B8r-vi-ikke
Kan få vi lagt alle regeringens donationer frem? Kunne en del af forklaringen på den digitale begejstring mon gemme sig i dem?
Det er irrelevant, om fordomme er nøjagtige - de rammer også dem, som ikke passer til fordommene, og det bør ikke ske. Der skal ske individuel behandling - på samme måde for alle borgere. Ellers er det diskrimination, uanset hvor præcise fordommene er.At fordomme er nøjagtige er et af de mest replikerbare resultater i psykologien (sammen med IQ).
Nu er det ikke sådan machine learning foregår, men ellers ville det være et godt udgangspunkt.Og stopper man fordomme om f.eks. sammenhængen imellem etnicitet og tyvagtighed eller griskhed ind i en model, så kommer der sjovt nok også fordomsfulde resultater ud af den.
At fordomme er nøjagtige er et af de mest replikerbare resultater i psykologien (sammen med IQ).
Søg evt. på "stereotype accuracy" for at finde ud af mere.
Forskellen har bl.a. været diskuteret på P1 så sent som for en uge eller to siden.
Jeg vil - igen - bede dig om at læse mine indlæg længere oppe. Jeg forstår ikke hvor du får fra, at jeg skulle være imod berettiget kontrol baseret på begrundet mistanke.
Når du bliver ved med at påstå at jeg skulle være imod enhver form for kontrol, så må jeg blive ved med at svare, at der er tale om en stråmand.
Ah, flot stråmand.
Stråmand ?
Måske du istedet for at kalde min argumentation for en stråmand, evt. kunne argumentere for hvorfor de to typer myndighedskontrol er så væsensforskellig så man godt må checke korrektheden af skatteoplysninger men ikke må cheke oplysninger der lægges til grund for modtagelse af sociale ydelser. Hvis du har en dyb indsigt som jeg har overset ville jeg være taknemmelig hvis du ville dele den med dette forum ?
Bjarne Nielsen, baseret på ovenstående udsagn må man formode at du også er imod skatteligning.
Ah, flot stråmand. Nej, det er jeg som udgangspunkt ikke, og det kan du se uddybet længere oppe.
Men ja, skattevæsenet har efterhånden også tiltaget sig nogle ganske besynderlige magtmidler, som langt overgår det, som f.eks. PET kan tillade sig. "Heldigvis" (i hvertfald i denne sammenhæng) har skiftede regeringer af hovedsagelig blå observans "effektiviseret" væsenet, så det er blevet impotent og tandløst. Det rammer lidt i flæng, mere eller mindre tilfældigt, men uden den store effekt.
Så nej, jeg er bestemt ikke imod skatteligning eller anden form for kontrol, men det skal ske på en ordentlig og værdig måde. Både når man skal bidrage og når man skal hjælpes.
Og overgrebet er allerede sket, når undersøgelsen iværksættes. Det er for sent at sige "undskyld" når borgeren først har været igennem den store mølle. Og lad os bare være ærlige, selvom undersøgelsen frikender en, så vil der altid være mistanken, næste gang man bliver til at sag. Der går ikke røg af brand, osv.
Bjarne Nielsen, baseret på ovenstående udsagn må man formode at du også er imod skatteligning. For hvis nogen undersøger om de oplysninger du har givet til skattevæsenet er korrekte - så er dine rettigheder allerede trådt under fode -og hvis du bedes om yderligere dokumentation for dine fradrag så skal det vel via menneskerettigheds domstolen ?
Så er vi nogenlunde enige på det punkt, Jan Thomsen. Enten spiller de ikke med åbne kort, eller også er det en rent akademisk øvelse - dvs. spild af skatteborgernes penge (den slags burde jo efterforskes :-))
Ud fra min erfaring er der nok tale om begge dele....
Det kunne faktisk være rart at få en forklaring: Hvad opnår man ved at flytte rundt på prioriteringsrækkefølgen, hvis man under alle omstændigheder vil efterforske alle sager? Kan vi få Version2 på banen her?
"Kan du forklare, hvad meningen ville være i blot at flytte rundt på prioriteringsrækkefølgen, hvis man under alle omstændigheder efterforsker alle sager, Jan Thomsen? Hvad skal man brug det til?"
Ja man kan sikre at man behandler de mest oplagte sager først, som ligner dem der indgik i træningssættet, og hvis man så ikke kommer gennem hele bunken så misser man måske færre reelle forsøg på snyd - med potentiel bias på at visse kategorier slipper lettere end andre. Men når man læser interviewet sidder jeg tilbage med en fornemmelse af at der er meget få gevinster og at det mere er en akademisk øvelse. De siger da vist selv at de ikke søger nogen gevinster. Det lyder lidt som om der ikke er en egentlig business case.
Men hvis man vil vide svaret på dit iøvrigt gode spm. så må man nok tilbage til dem der fandt på projektet. Jeg kan jo kun spekulere på formålet og hvilke gevinster der kommer ud af det. Du har jo ubestridelig ret i at hvis alle sager behandles manuelt så er der i princippet intet formål med det udover at vise at man kan lave et system af den pågældende type.
Jan
Kan du forklare, hvad meningen ville være i blot at flytte rundt på prioriteringsrækkefølgen, hvis man under alle omstændigheder efterforsker alle sager, Jan Thomsen? Hvad skal man brug det til?Som jeg læser interviewet ønsker man at fastholde den manuelle sagsbehandling af alle sager. Hvis det er korrekt forstået så vil en evt. bias i scoringen blot ændre prioriteringen af hvilken rækkefølge sagerne behandles. Så kan man spørge sig selv om det mon kan være sandt, men det er en anden sag.
Jeg fastholder at anvendelse af en black box algoritme ikke er et problem i den foreliggende situation. Som jeg læser interviewet ønsker man at fastholde den manuelle sagsbehandling af alle sager. Hvis det er korrekt forstået så vil en evt. bias i scoringen blot ændre prioriteringen af hvilken rækkefølge sagerne behandles. Så kan man spørge sig selv om det mon kan være sandt, men det er en anden sag. Det er også meget svært at se hvordan et neuralt netværk skulle sende data videre til uautoriserede modtagere. Man må formode at resultaterne er forbeholdt sagsbehandlerne og ingen andre, ellers er der tale om decideret fejlbehæftet software, og det kan man da godt drømme op hvis man er paranoid. Men så er eneste alternativ at gå tilbage til ren papirgang og lægge sagerne i bunker så alle kan rode i dem, ligesom i de gode gamle dage. Hvis man ønsker at algoritmen skal kunne begrunde sine svar, så findes der forskellige statistiske metoder og rule-based systemer som kan anvendes til dette formål. Jeg husker ikke om artiklen nævnte metoden, men det lød lidt som supervised learning hvilket ofte er associeret med neurale netværk. Til data af den type jeg formoder de anvender i den foreliggende sag kunne man formentlig have anvendt nogle af de nævnte metoder og fået en begrundelse for scoren med. Jeg ser ofte at neurale netværk anvendes fuldstændig ukritisk, men for al supervised learning classifiers som der formentlig er tale om her gælder GIGO (garbage-in-garbage-out) reglen, og det er notorisk svært at undgå såvel falske positive som falske negative hvis input afviger markant fra træningssættet. I dette tilfælde så er der jo manuel sagsbehandling og så ser jeg ikke nogen store faresignaler ! I værste fald kan en bias betyde at visse kategorier af syndere opdages senere end andre og det er vel næppe det helt store brud på grundlovssikrede rettigheder vil jeg mene :-)
Ville du gå ind for, at bagmandspolitiet og Finanstilsynet begrænsede sin efterforskning af anmeldelser til borgere, der bor i Hasseris eller Gentofte?
Præcist. Det betyder ikke, at de ikke kommer til at bruge megen af deres tid i særlige kredse, men forhåbentlig fordi at de har gjort sig fortjent til særlig opmærksomhed, og ikke bare fordi at de har valgt at bosætte sig der.
At der er et sammenfald mellem folks oprindelsesland (og dermed implicit deres etnicitet) og deres tendens til kriminel adfærd er dokumenteret af Danmarks Statistik.
Det er lovfæstet at man ikke må diskrimere på baggrund af køn, race eller etnicitet. Det bliver ikke lovligt af, at man sætte strøm til eller at man stopper det ind i sort kasse, istedet for at skrive det ind i medarbejderhåndbogen.
Begge dele er jo udtryk for diskrimination og feedback-loop baseret på fordomme ...
Hvilke diskrimation og hvilke fordomme?
Så vidt jeg kan se, er disse kontroller ikke baserede på individuelle karakteristika - de rammer alle, der kommer forbi.Men så må du vel også være modstander af politiets systematiske spritkontroller omkring påske, jul og J-dag, hvor der erfaringsmæssigt ryger mange syndere i nettet?Eller fotovogne på de såkaldte "sorte pletter", hvor der sker mange uheld?
Ville du gå ind for, at bagmandspolitiet og Finanstilsynet begrænsede sin efterforskning af anmeldelser til borgere, der bor i Hasseris eller Gentofte?
Det er da fint at være kritisk over for anvendelsen af algoritmer, idet nogle af disse er en slags black box hvis svar ikke giver mulighed for at vurdere hvilke vurderinger der ligger til grund for algoritmens svar. Neurale netværk i en række afskygninger er et eksempel på denne problematik.
...og det er som oftest det, som er tilfældet. Det er i hvertfald første forsvarslinje: "...vi forstår ikke, hvad den gør, så der er ikke nogen risiko for nogens privatliv". Det er rent ud sagt noget fordrukkent sludder.
Jeg har tidligere linket til forskning, som viser, at det er muligt at udtrække meget detaljerede oplysninger fra træningssættet, i et tilfælde hvad der ville svare til et cprnummer, også selvom det hverken var del af målet for træningen og allerede inden der var tale om fuld træning (der var mao. ikke tale om overtræning). Det virker skræmmende menneskeligt; det allerede sete kan ikke uses.
Men hvis algoritmen bare giver en score el. lign. til en ny sag som derefter håndteres af en sagsbehandler på normal vis, så er det svært at få øje på den store fare for privatliv.
Al erfaring viser, at man ikke stiller spørgsmålstegn ved algoritmernes konklusioner. For hvad nu hvis "den" alligevel viser sig at have ret? Jeg har oplevet det ifm. sundhedsvæsenet, hvor jeg kom igennem en større "pakke", og selvom alle undervejs udtrykte undren over det fornuftige, så valgte alle at sende mig videre. For hvad nu hvis? Ingen ønskede at være den første til at påpege kejserens åbenlyse manglen på anstændig påklædning.
Vi ser også, hvordan kommuner rask væk iværksætter sagsbehandling uden andet grundlag end løse og anonyme mistanker, og det sikkert ud fra samme (mangel på) logik. Det er forkasteligt.
Hvis algoritmerne kan forklare sig selv og hvad deres score bygger på, så måske, for så kan sagsbehandleren på rimelig vis argumentere imod. Men ingen kan argumentere imod en ugennemsigt "score".
Og overgrebet er allerede sket, når undersøgelsen iværksættes. Det er for sent at sige "undskyld" når borgeren først har været igennem den store mølle. Og lad os bare være ærlige, selvom undersøgelsen frikender en, så vil der altid være mistanken, næste gang man bliver til at sag. Der går ikke røg af brand, osv.
Algoritmer stjæler jo formentlig ikke data og videresender til uautoriserede må man formode - i modsætning til mennesker.
Jo, de gør. Se ovenfor.
Og utrygheden opstår ikke, når nogen kigger, men når "kameraet" bliver sat op. Jo mere ugennemskueligt vi gør tingene, jo tættere vil kortene blive holdt til kroppen; og kommunerne er jo sat i verden for at hjælpe, ikke for at skabe utryghed eller gøre at folk med hjælp behov går og putter med deres udfordringer, så de kan få lov at vokse sig store i det skjulte.
Jeg er begyndt at betale med kontanter, og det kunne jeg i weekendens udgave af Aflyttet høre at Allan Frank fra Datatilsynet også havde valgt gøre, og vi har tilsyneladende samme begrundelse: vi ønsker ikke at dele detaljer om vores vaner og liv med bankerne, og der er ikke længere rigtigt noget, som stopper dem i at snuse rundt i, hvad vi gør med vores betalingskort.
Jeg har svært ved at se at en algoritme skulle være den store synder i forhold til GDPR da den iflg. det foreliggende blot peger sagsbehandlerne mod de mest relevante sager til prioritering.
Hvis der sker en behandling af persondata uden hjemmel (og det er svært at se, hvad det kan være for en), så er det i strid med loven. Mens man "bare leger" vil man sikkert prøve at dække sig ind under forskning og en række andre undtagelser, men faktum er, at man roder rundt i almindelige menneskers personoplysninger uden at ville ulejlige sig med at spørge, endsige orientere om det; oplysninger indsamlet til andet formål.
Så jeg har meget svært ved at se, hvordan det kan se uden at være i strid med gældende regler (men der findes jo myriader af lovfæstede undtagelser der hvor man synes at ånden i GDPR og menneskerettigheder og almindelige værdighed bliver for ubekvemt).
Algoritmen udpeger på basis af nogle fordomme (berettigede eller uberettigede) de sager, som man vil efterforske, og derved diskriminerer den.
Men så må du vel også være modstander af politiets systematiske spritkontroller omkring påske, jul og J-dag, hvor der erfaringsmæssigt ryger mange syndere i nettet?
Eller fotovogne på de såkaldte "sorte pletter", hvor der sker mange uheld?
Begge dele er jo udtryk for diskrimination og feedback-loop baseret på fordomme - eller er der bare tale om fornuftig anvendelse af sparsomme ressourcer?
Det har bare (stadigvæk!) ikke noget med etnicitet at gøre. Medmindre du vil argumentere for at der er et gen for tyvagtighed eller griskhed?
Godt forsøgt, men etnicitet handler ikke om gener, men om kulturelt tilhørsforhold.
At der er et sammenfald mellem folks oprindelsesland (og dermed implicit deres etnicitet) og deres tendens til kriminel adfærd er dokumenteret af Danmarks Statistik.
Vi kan spekulere på, hvorfor det er sådan, men opgaven går jo ud på at finde ud af, hvor kriminaliteten sker, ikke hvorfor den sker. Så jeg vil mene, det er usagligt at sløre forskellige markører, som ellers kunne have forbedret modellens evne til at beskrive virkeligheden.
Nu skal man jo også huske, at der er tale om et beslutningsstøtteværktøj, og det er jo ikke sådan, at nogen bliver dømt skyldige, fordi de bor det forkerte sted eller har det forkerte navn. Derudover ved vi heller ikke, hvordan modellen ville reagere, hvis alle parametre blev talt med - så diskussionen er lidt hypotetisk, og mon ikke det ender med, værktøjet bliver en fuser, enten fordi det ikke virker, eller fordi det fortæller sagsbehandlerne noget, de udmærket ved i forvejen.
Det er jo netop her, problemet ligger, Jan Thomsen. Algoritmen udpeger på basis af nogle fordomme (berettigede eller uberettigede) de sager, som man vil efterforske, og derved diskriminerer den. Hvis man havde tænkt sig at efterforske alle sager, ganske som man plejer, ville der jo ikke være noget vundet med algoritmen. Jeg er overbevist om, at der vil være sager, som algoritmen prioriterer så lavt, at de reelt ikke bliver efterforskede - og det bliver sandsynligvis ikke sagerne fra Gellerupparken....bør der vel være den gevinst at man hurtigt tuner sig ind på den ene sag ud af hver 6 indberetninger som er reelt forsøg på snyd, og måske kan spare noget tid på andre sager som algoritmen vurderer som lav risiko.
Og derudover åbnes der endnu en gang for yderligere samkøring af data og registre - endnu et skridt i salamificeringen af privatlivet - og om kort tid ryger der med sikkerhed endnu en bid - efter samme logik.
Jeg undrer mig lidt over nogle af indlæggene som jeg synes er udtryk for algoritmeforskrækkelse, som jeg mener har været tiltagende i diverse medier over de seneste år. Det er da fint at være kritisk over for anvendelsen af algoritmer, idet nogle af disse er en slags black box hvis svar ikke giver mulighed for at vurdere hvilke vurderinger der ligger til grund for algoritmens svar. Neurale netværk i en række afskygninger er et eksempel på denne problematik. Men hvis algoritmen bare giver en score el. lign. til en ny sag som derefter håndteres af en sagsbehandler på normal vis, så er det svært at få øje på den store fare for privatliv. Algoritmer stjæler jo formentlig ikke data og videresender til uautoriserede må man formode - i modsætning til mennesker.
Jeg kan ikke se de store problemer for privatliv o.lign. i det foreslåede projekt men man kan spørge sig selv om det er ulejligheden værd. Det er da interessant om man kan gøre det de påtænker fra en akademisk synsvinkel, men de forestiller sig jo ikke nogen egentlig målelige gevinster så vidt jeg kan se af interviewet. Men hvis man antager at de kan få det til at virke efter hensigten så bør der vel være den gevinst at man hurtigt tuner sig ind på den ene sag ud af hver 6 indberetninger som er reelt forsøg på snyd, og måske kan spare noget tid på andre sager som algoritmen vurderer som lav risiko. Så måske man dækker sig ind ved ikke at påpege gevinster så man ikke kan kritiseres for det efterfølgende - men så kan man spørge sig selv hvad en kommune vil med det - så er det måske mere et forskningsprojekt.
Jeg har svært ved at se at en algoritme skulle være den store synder i forhold til GDPR da den iflg. det foreliggende blot peger sagsbehandlerne mod de mest relevante sager til prioritering. Hvis algoritment skulle anvendes uden involvering af sagsbehandler ville det jo være ganske anderledes.
Ja, algoritmeer er jo netop bare systematiserede og mørklagte fordomme - selv hvis algoritmerne statistisk set har ret.Og stopper man fordomme om f.eks. sammenhængen imellem etnicitet og tyvagtighed eller griskhed ind i en model, så kommer der sjovt nok også fordomsfulde resultater ud af den.
Ville det være i orden, hvis en socialrådgiver sad med en bunke med 100 mistænkelige sager, og så højt og tydeligt sagde: "Jeg kan ikke nå at undersøge alle disse sager, så jeg tager kun dem fra Gellerup, for der er flest, der er skyldige."?
I mine øjne ville det være grov og fordomsfuld forskelbehandling, uanset om udsagnet statistisk set skulle vise sig at være berettiget.
- Tilgangen vil betyde, at ririkoen for at blive afsløret er langt større i Gellerup end i eks. Hasseris = fordomsfuld diskrimination.
- Tilgangen vil betyde, at man ret risikofrit kan snyde og bedrage andre steder end i Gellerup = fordomsfuld positiv særbehandling af visse befolkningsgrupper, som så endnu engang er lykkedes med at indrette samfundet til egen fordel.
- Baseret på de seneste års sager ville der vel statistisk set være en vis logik i at sætte væg til væg overvågning på bankkunder med konti i Danske Bank eller Nordea, og bankkunder med adresser i Gentofte, Hellerup eller Rusland (fordomsfuldt tilfældigt udvalgte eksempler), og pengeflow over en vis størrelse, og på alle selskabsoprettelser, mhp. at afsløre mistænkelige mønstre. For statistisk set er der tegn i sol og måne på, at disse er storforbrydere. Skal vi så gøre det? Må disse folk så finde sig i at få deres privatliv krænket, blot fordi de deler visse karateristika med storforbryderne - sådan bare for en sikkerheds skyld?
Mistænkte komnkrete forbrydelser skal efterforskes, uanset hvor man bor, hva man hedder osv. . Og som sagt bliver fordomme og forskelsbehandling ikke mindre forkasteligt og diskriminerende af at blive puttet ind i en black box i en algoritme, selv hvis algoritmen har ret. Og hvis endeligt vi skulle gå ned ad den vej, så er der vist mange andre steder, der gemmer sig flere penge end hos modtagere af kontanthjælp og den slags.
... som betalende skatteborger sætter jeg stor pris på, at myndighederne leder efter svindel ... de steder, hvor der er størst sandsynlighed for at finde dem.
Hvis jeg lige må generalisere dit udsagn som ovenfor, så er vi helt enige.
Det har bare (stadigvæk!) ikke noget med etnicitet at gøre. Medmindre du vil argumentere for at der er et gen for tyvagtighed eller griskhed?
Og så er det faktisk ret ligegyldigt, hvor stor posten er, det er langt mere interessant, hvor meget svig man får for en ekstra krones indsats. Udbytteskatrefusioner virker til at være et sted, hvor man vil få mere for pengene end ved øget kontrol af hvor mange gange enlige pensionister spiser aftensmad sammen.
Som betalende skatteborger sætter jeg også pris på, at alle betaler det, som de skal, men vi har lige set en historisk kraftig påtale af statens evne til at holde regnskab og sørge for at alle betaler det, som vi i fællesskab har besluttet for os at vi skal. Det sejler rent ud sagt, fordi man åbenbart har mere travlt med at jagte ørerne på overførslesindkomsterne og så lader kronerne rulle andetsteds. Og da jeg betaler hvad jeg skal, så ser jeg frem til at få reduceret mine indbetalinger (eller få mere velfærd for mine penge), når alle andre også kommer til at gøre det.
Endelig så bør man gøre sig en overvejelse om, hvorvidt man forvolder mere skade ved den ganske vidtgående mistænkeliggørelse, som for tiden finder sted, eller om ikke man kunne give i forvejen pressede folk et bedre liv med større overskud til uddannelse og mindre sygdom ved at være mindre mistroisk? De studier, som jeg kender til for området viser, at folks beskæftigelsesfrekvens ikke falder af mindre kontrol, men det gør til gengæld deres sygelighed (= sparede penge) og at de benytter overskuddet til bl.a. at opkvalificere sig (= større samfundsnytte på længere sigt).
Havde det været et spørgsmål om ekstra og overflødig kontrol af iltsvind i de indre farvande, så kunne jeg leve med det, selvom det også er spildte skattekroner. Men uretfærdig mistænkeliggørelse har store personlige konkvenser, og derfor bør der være et minimum af retsgarantier og et krav om begrundende mistanker. Man bliver for tiden væsentligt bedre behandler af politiet som kriminel, end man bliver som almindelig uskyldig modtager af offentlige ydelser, og jeg kan nu se disse amatør-agtige forsøg på at skjule sig bag algoritmer som et voldsomt skridt i den helt forkerte retning.
Men for at vende tilbage til emnet: samvarians uden kausalitet øger nok en models evne til at afbilde modeldata, men øger ikke dens forudsigelsesevne eller dens robusthed, tværtimod. Og stopper man fordomme om f.eks. sammenhængen imellem etnicitet og tyvagtighed eller griskhed ind i en model, så kommer der sjovt nok også fordomsfulde resultater ud af den.
Hvilket netop ikke svarer på spørgsmålet, for alt hvad det viser er samvarians.</p>
<p>Det giver præcist lige så meget mening, som at "påvise" at store brandbiler er overrepræsenteret ved de store brande. Eller kan vi blive enige om, at størrelsen af udrykningskøretøjerne er irrelevante?
Selv om du ikke bryder dig om budskabet, som ganske rigtigt er politisk ukorrekt, løser det ikke noget at tale udenom og forsøge at relativisere sig ud af problemet.
Overførselsindkomster er den største enkeltstående post på statsbudgettet, og som betalende skatteborger sætter jeg stor pris på, at myndighederne leder efter svindel med sociale ydelser de steder, hvor der er størst sandsynlighed for at finde dem.
Ligesom jeg også sætter pris på, de sender store brandbiler afsted til store brande og små brandbiler afsted til små brande. Alt andet ville være spild af ressourcer.
Hvilket netop ikke svarer på spørgsmålet, for alt hvad det viser er samvarians.
Det giver præcist lige så meget mening, som at "påvise" at store brandbiler er overrepræsenteret ved de store brande. Eller kan vi blive enige om, at størrelsen af udrykningskøretøjerne er irrelevante?
Det må du egentlig godt uddybe.
Du kunne fx tage et kig på Danmarks Statistiks artikel fra 2015.
Medmindre etnicitet er irrelevant, hvad der ikke er grundlag for at tro.
Det må du egentlig godt uddybe.
Uanset hvordan man vender og drejer det, så handler det jo om at finde algoritmer, som kan udskille sager på en måde, så man - i stedet for blot at tage dem efter tur og efterforske dem på normal vis -, kan koncentrere sig om dem, som giver størst chance for "gevinst". Det vil sige, at man går ud fra, at der er nogle særlige karakteristika ved de sager, hvor der faktisk foregår snyd. Og hvilke karakteristika handler det så om? Det kan ikke undgå at betyde, at der vil være folk, som har nogle af disse karakteristika, og som så vil blive efterforsket, selv om de måske reelt er uskyldige - eller omvendt. Folk vil altså blive efterforsket eller ikke efterforsket på baggrund af fordomme, som algoritmen udvikler. Og uanset om disse fordomme stemmer med virkeligheden eller ej, vil det ramme folk, som nogen gange ikke er skyldige eller nogen gange ikke er uskyldige, selv om algoritmen peger på dem eller frikender dem.
Så uanset om algoritmen statistisk set har bias eller ej, så vil der være borgere, som i deres individuelle situation udsættes for bias/algoritmefordomme, fordi de har nogle af de pågældende karateristika. Det er ikke i orden.
Den stakkels udvikler svarede på spørgsmålet om "bias" og fordomme:
"Vi slipper for nogle problematikker ved for eksempel ikke at tage navne og adresser med. Så der er ikke viden i algoritmen, om der optræder et dansk-klingende navn eller ej. Vi reducerer referencer til etnicitet. "
Så han opfattede at det drejede sig om den journalist-definition af bias som jeg beskrev. Og journalisten trykte hans svar.
Iøvrigt er det ikke sikkert at modellen vil ignorere etnicitet fordi man udelader navne. Der kan opstå en feature i et mellemlag som genkender etnicitet ud fra de øvrige data, og som føder værdien opad. Medmindre etnicitet er irrelevant, hvad der ikke er grundlag for at tro.
Hej stråmand.
Modellen "forudsiger" ikke "fremtiden". Modellen kan kun bruges, hvis det, som den møder, opfører sig på præcis samme måde, som træningsdata, på de til og af modellen udvalgte dimensioner. Det bliver populært sagt "yesterdays weather".
Og derfor er det yderst relevant at spørge ind til, hvordan man sikrer imod bias. Man svarer, at man prøver at undgå 3. variable som næppe har kausalitet (bopæl, navn mv.) og det er vigtigt (men er kun et aspekt). F.eks. ændrer man sig næppe af at få et andet postnummer eller et andet navn.
Man skal specielt undgå 3. variable uden forventelig kausalitet, hvis de er nemme at ændre, når man har med mennesker at gøre. De er hurtige til at lære, at man skal undgå visse postnumre, hvis man ikke ønsker den opmærksomhed som følger med. Vi har bl.a. i visse meget omdiskuterede misbrugssager set, at man simpelthen flyttede indtil man fandt et sted, hvor man kunne konstatere at man nu blev overset, så mere udspekuleret behøver det ikke at være.
Hvis træningsdata har bias (f.eks. ved at visse postnumre eller visse efternavne i forvejen kontrolleres meget grundigere end ellers, og man derfor observerer en større andel end der findes i den bagvedliggende population), så vil modellen videreføre denne bias. For den bygger ikke sine mekanismer på de reelle egenskaber, men kun på de observerede. Og endda kun dem, som vi vælger at præsentere den for, så her er også en kilde til bias.
Hvis det man leder efter er stabilt og hyppigt forekommende (og ikke kan gøres til genstand for modsatrettet manipulation af det observerede), så vil modellen kunne have en vis udsagnskraft. Leder man efter de relativt få undtagelser på et område som ikke er statisk, så mister modellen hurtigt validitet. Specielt hvis det er en "sort kasse", så man ikke kan stille berettigede spørgsmål til relevansen af det, som indgår i dens konklusion.
Endelig mener jeg ikke at det er nødvendigt at drage journalisten egne holdninger ind i det her. Det er muligt, at du ikke kan lide journalistens spørgsmål og finder det nemmere at angribe personen end selve spørgsmålet, men det ændrer efter min mening ikke på, at spørgsmålet er yderst relevant at stille (hvad jeg har argumenteret for ovenfor uden at drage journalistens holdninger ind i det).
Journalisten spørger: "Hvordan vil I undgå bias – indbyggede fordomme – i algoritmen?"
Det er interessant at der nu findes to definitioner på "bias" i dette felt - datalogens, som betegner forskellen mellem modellens forudsigelse og virkeligheden. Og så journalistens, som betegner forskellen mellem hvad modellen forudsiger og virkeligheden, som journalisten ønsker den så ud.
Et par ting:
Fordom er bare mønstergenkendelse med et negativt spin. En god model er sandsynligvis fordomsfuld, racistisk etc. da den afspejler virkeligheden.
Artiklen nævner at modellen ikke trænes med navn og adresse. Det mener jeg vil gøre den dårligere end ellers.
Ang. feedbackloops: Jeg mener ikke de vil gøre modellen dårligere. Mere data er altid godt, og det behøver ikke være repræsentativt for at forbedre modellen. Bare man undgår overfitting.
Derfor er der heller ingen grund til at overveje forholdet mellem projektets udgifter og det beløb, algoritmen er med til at kradse ind, når udviklingsarbejdet er færdigt.</p>
<p>Det er ny teknologi, som kan anvendes i det offentlige.
Enig - mennesker har lavet og udtænkt hver eneste lille stump incl. algoritmer (beregninger.. programstumper), så de pænt afspejler nogle (bedre) menneskers subjektive tanker om deres (dårligere) medmennesker - subjektivt, da det er til holdningskontrol af medborgerne.Jeg har derfor svært ved at se hvad algoritmer skal kunne udregne, fordi udregningen nødvendigvis må baserer sig på allerede eksisterende data i kommunens fagsystemer.
- Den dag man ansætter de rigtige medarbejdere, 2) den dag man løbende fagligt uddanner deres medarbejdere samt 3) den dag man aflønner deres medarbejdere passende, da bliver det en stor dag. (..tak til Martin Luther King Jr.)
Dagen.. hvor alskens unødvendige samt tåbelige erstatninger for menneskers almindelig fornuft (læs AI), kan smides på porten.
I mine øjne er dette 'profiling' i GDPR's termer, fordi man bruger den konkrete persons data i en model, og anvender modellens resultat til en afgørelse (at undersøge sagen med særlig skepsis). Det er ikke statistik, men modellen er selvfølgelig udviklet på baggrund af statistik.
Jeg håber, at alle brugerne får denne praksis at vide, men det vil risikovurdering jo nok også pege på.
Ok, tak, Yol Caspersen. Det vidste jeg ikke. Men indgår adressen mon?
Men vi har vist endnu tilgode at se en algoritme rettet mod det Gentofte/Rudersdals/Hasseris's aktiehandel. Kommer den mon nogensinde?
Den findes skam allerede - kursmanipulation fanges i dag af algoritmer, og sådan har det været i mange år efterhånden.
Man kan også vende den om: Hvis nu en algoritme forudså en højere frekvens af aktiekursmanipulation og insider-handler i Gentofte og Rudersdal end i Vollsmose, ville der så være tale om et feedback-loop på basis af fordomme, eller har algoritmen blot fundet en reel afvigelse fra gennemsnittet?
Hvilke fordomme?
Men ja, der er forskel på samvarians og kausalitet.
PS: ...og vil det så betyde, at man kan unddrage sig skærpet kontrol for aktiekursmanipulation og insider-handler ved at flytte fra Rudersdal til Vollsmose? Det lyder som et godt tip.
Men vi har vist endnu tilgode at se en algoritme rettet mod det Gentofte/Rudersdals/Hasseris's aktiehandel. Kommer den mon nogensinde? Og igen: Hvis man vil sortere efter bopæl, hvad skal man så med en algoritme?Man kan også vende den om: Hvis nu en algoritme forudså en højere frekvens af aktiekursmanipulation og insider-handler i Gentofte og Rudersdal end i Vollsmose, ville der så være tale om et feedback-loop på basis af fordomme, eller har algoritmen blot fundet en reel afvigelse fra gennemsnittet?
Nu har vi sørme et feedback-loop kørende. Sager, som algoritmen finder "interessante" vil blive underkastet særlig granskning, mens sager som findes "uinteressante" får ganske lille opmærksomhed. Algoritmen bliver nu til en selvopfyldende profeti! Successen er sikret.
Det er jo en diskussion, som minder om den, der gælder Palantirs "predictive policing": Er der en tendens til, at visse befolkningsgrupper er mere kriminelle end andre, eller skyldes statistikken blot et feedback-loop, der er udløst af tilfældige fordomme?
Man kan også vende den om: Hvis nu en algoritme forudså en højere frekvens af aktiekursmanipulation og insider-handler i Gentofte og Rudersdal end i Vollsmose, ville der så være tale om et feedback-loop på basis af fordomme, eller har algoritmen blot fundet en reel afvigelse fra gennemsnittet?
Jeg er absolut modstander af socialt bedrageri - altså uberettiget udbetaling af offentlige ydelser. De sociale udgifter er store, og der er afgjort behov for at udbetalingerne kun tilfalder de berettigede. Da vi ikke lever i Frode Fredegods tid, så er der - menneskelig natur taget i betragtning - behov for kontrol (bedre var det, hvis regler og retningslinier i højere grad var sikret med snyd og svindel (enkelhed) - dyneløfteri er en fattig erstatning).
Nå men SYNSPUNKTET:
- er det ikke bedre, at en algoritme udtrækker klienter til nærmere undersøgelse (og lader alle andre forblive i bureaukratiets mørke) ?
- end at have sagsbehandlere til at “snage” sig igennem alle klienterne, måske med en bopæls- eller navne-bias ?
Tænk lige på debat-indlægget ovenfor om en banks kategorisering af udgifter. Hvorfor skulle en bankmedarbejder, gennem sin rutinekontrol, overhovedet se at en person rejser for kr.150.000 ? De må da hellere blive i bankens mørke. Med dagens seneste nyheder om svindelsagen, så kan jeg sagtens foreslå andre, relevante og svindelforebyggende, algoritmeparametre.
Jeg synes det er langt mere acceptabelt, at foretage en algoritme-kontrol (kunne jo være simpelt lotteri) end at have nok så begavede og “fortrolighedsbevidste” medarbejdere som snager i sagerne......
Mon ikke man risikerer at ende med at blive højere prioriteret og grundigere "efterforsket", hvis man bor i Gjellerupparken ...
Selvfølgelig gør man det. Algoritmen ser kun på samvarians, ikke på kausalitet, så den vil tage alle mulige irrelevante forhold med ind i sine forudsigelser ... "jo flere brandbiler der sendes til en brand, jo større er skaderne!".
Og man vil også få cementeret en allerede eksisterende bias. Hvis sagsbehandlerne allerede har et godt øje til Gellerupparken, og tilsvarende et blindt øje til Hasseris, så vil der findes flere sager i Gellerupparken end i Hasseris, selv når man tager højde for forskellene.
Men vent, det bliver værre endnu. For som artiklen siger:
...når algoritmen er i mål – så går den ind og giver en form for indikator på, at dette er en ny sag, som sandsynligvis er en socialbedrager. Den sag bør sagsbehandleren bruge mere tid på end andre opgaver, hun lige har fået ind.
Nu har vi sørme et feedback-loop kørende. Sager, som algoritmen finder "interessante" vil blive underkastet særlig granskning, mens sager som findes "uinteressante" får ganske lille opmærksomhed. Algoritmen bliver nu til en selvopfyldende profeti! Successen er sikret.
Og gæt hvad der sker, når man træner version 2 af algoritmen på basis af data med bias fra version 1?
PS: Horsens, er det ikke dem med "Projekt Tværspor"? Er Horsens ved at blive den jyske pendant til Gladsaxe?
For at uddybe mit spørgsmål: Mon ikke man risikerer at ende med at blive højere prioriteret og grundigere "efterforsket", hvis man bor i Gjellerupparken (ok - ikke Horsens), end hvis man bor i Hasseris (ok - heller ikke Horsens)? I givet fald: Er det fair, eller er det bias? Og ville det ikke under alle omstændigheder have været ganske enkelt for sagsbehandlerne at foretage dén skelnen uden Watsons hjælp?PS: Kan nogen ud fra interviewet gennemskue, om man tager adresse med?
Jeg synes, han siger lidt det ene, lidt det andet på det punkt - er det udtryk for "bias", hvis algoritmen ender med at oppriorietere sager fra bestemte boligområder?).
Det erkender jeg, Peter Hansen. Jeg har et særligt filter på, så snart jeg hører ordet "algoritme", og da især, når det er koblet med sætninger som "Jeg ser det ikke så indgribende" og " Derfor er der heller ingen grund til at overveje forholdet mellem projektets udgifter og det beløb, algoritmen er med til at kradse ind" og "Om det også skal inkludere det politiske lag, er ikke afgjort endnu". og "Vi reducerer referencer til etnicitet." (fluffy).
Det ville være dejligt, hvis mistroen engang imellem blev modbevist - det kan vi jo så håbe, at den bliver her.
(PS: Kan nogen ud fra interviewet gennemskue, om man tager adresse med? Jeg synes, han siger lidt det ene, lidt det andet på det punkt - er det udtryk for "bias", hvis algoritmen ender med at oppriorietere sager fra bestemte boligområder?).
Medmindre vi taler om underholdningssoftware som spil, så udfører forretningssoftware blot de processer som ellers skulle være udført i hånden.
Jeg har derfor svært ved at se hvad algoritmer skal kunne udregne, fordi udregningen nødvendigvis må baserer sig på allerede eksisterende data i kommunens fagsystemer.
Man kan udregne en ”social kreditscore” men hvis jeg var sagsbehandler ville jeg forstrække fakta frem for en ”social kreditscore”.
For nogen tid kom jeg til at kigge på min bankkonti via appen på en min telefon. Der bemærkede jeg at alle posteringer var blevet kategoriseret af banken.
Alle erhvervsdrivende i Danmark modtager ved årets start 10 girokort/PBS-betalinger som skal betales hver den 20. (dog ikke Juli og December). Disse svarer til den forskudsskat som arbejdsgiveren tilbageholder og indbetaler på vegne af lønmodtagere.
Problemet med bankens kategorisering er/var at disse betalinger blev kategoriseret som ”RESTSKAT”. Problemet er, at jeg ingen skattegæld har. Restskat er jo noget man skylder væk.
Det næste jeg faldt over var mine flybilletter. Jeg flyver typisk for dkk 150K om året i erhvervssammenhænge. De var kategoriseret som ”FERIE” og på samme vis var taxa osv. osv.
Det er muligt at kategoriseringen virker for 98% af bankens kunder, men er i mit tilfælde” helt fucked”.
Min erfaring er at bankansatte stort set kun kigger på kreditscore, fordi de som erhvervsrådgivere ikke forstår ”debet og kredit”.
Når jeg læser interviewet så sidder jeg lidt med fornemmelsen af ”Erasmus Montanus” over Mads Torslev.
For jeg har vanskeligt ved at forstille, at det skulle være anderledes med Horsens kommune eller deres ”studenteralgoritme”. Hvis man udregner en ”social kreditscore” så bliver denne score en selvopfyldende profeti, fordi kommunens sagsbehandler vil tillægge denne værdi højere tillid.
Ved netop brug af 'AI':https://ing.dk/satire/refns-satire-lille-memo-224134
// Jesper
Nu siger det jo ikke forfærdelig meget, at netop du kan lugte en skjult dagsorden.
"Derfor er der heller ingen grund til at overveje forholdet mellem projektets udgifter og det beløb, algoritmen er med til at kradse ind, når udviklingsarbejdet er færdigt."
Men det er vel ikke irrelevant, om man ligefrem bruger flere penge, end man får ind - altså underskud? Hvorfor må vi ikke få prisen at vide?
"Der prøvede vi IBM’s Watson af, og kunne se, hvor let det var at tage velstrukturerede data og få skabt gode løsninger på det."
Ja, IBM gør deres lobbyarbejde godt:https://www.computerworld.dk/art/245619/ibm-brugte-mere-end-et-aar-paa-at-charmere-sig-til-watson-aftale-med-region-hovedstaden-her-er-foerste-del-af-beretningen-om-hvordan-det-hoejtprofilerede-samarbejde-kollapsede-paa-blot-17-maaneder Hvor foregik kurset egentlig? Singularity?
GDPR-forordningen kræver, at der skal foretages en konsekvensanalyse og det arbejde indledes i kommunen i starten af juni i år. Men Mads Lund Torslev mener ikke, at der kræves en fremlæggelse af metode og lovgrundlag til byrådet. »Jeg ser det ikke så indgribende."
Nå, så er det åbenbart slået fast, og så er vi helt trygge - hvis bare man ikke ser det som indgribende, så behøver man ikke følge disse regler.... Er der ingen objektive kriterier? Men en konsekvensanalyse vil dog altså blive produceret, og fremlagt for de relevante ledelseslag i kommunen. Om det også skal inkludere det politiske lag, er ikke afgjort endnu."
Hvem afgør så det? Og der er vel efterhånden ikke meget, der er så politisk og principielt som disse problemstillinger? Skal disse vurderinger overlades til embedsmandsvældet?
Vi reducerer referencer til etnicitet. "
Men fjerner man dem? Det lyder ikke sådan.
Det må være en del af risikoanalysen, som vi skal i gang med."
Godt spurgt, Version2 - for det lyder ikke til, at det var noget, man lige havde tænkt på, før I spurgte.
"I den forbindelse ser vi på, hvilke risici der er forbundet, og en risiko kunne netop være at finde tilbage til den givne person. Så skal vi se på, hvor sandsynligt det er, og ud fra den betragtning skal vi gøre nogle greb på at reducere den sandsynlighed."
Lyder ikke for alvor betryggende.....
I øvrigt undrer jeg mig over følgende:"Datakilderne er borgerens indkomst, udbetalinger fra Udbetaling Danmark, kommunale ydelser, adressehistorik og civilstand."
Er det virkeligt kun disse oplysninger? Er dette ikke oplysninger, man i forvejen årligt automatisk samkører som led kontrol med beregningsgrundlag for ydelser - f.eks. for den årlige kontrol med boligstøtte etc? Jeg forstår ikke helt, hvor det nye i det er. Er det helt sikkert, at det ikke også er andre, mere kontroversielle oplysninger, såsom elforbrug?