Erhvervsstyrelsen fanger svindlere med algoritmer: Knalder stråmænd på stribe

1 kommentar.  Hop til debatten
 Erhvervsstyrelsen knalder stråmænd på stribe med machine learning - 600 politianmeldelser blev det til i 2021.
Illustration: Bigstock/Giulio_Fornasar.
Machine learning har overtaget opgaven med at kontrollere danske virksomheder fra 1000 medarbejdere. Det gør det også muligt at retsforfølge stråmænd.
4. maj kl. 03:45
errorÆldre end 30 dage

Hvis du går og tænker på at starte din egen virksomhed – så er det Erhvervsstyrelsen, du skal have fat i. 

Det er den myndighed, der registrerer spritnye virksomheder, og en virksomhed eksisterer slet ikke officielt, før den er registreret her.

»Da jeg startede for 22 år siden, tog det to år at stifte en virksomhed,« fortæller kontorchef Carsten Ingerslev fra Erhvervsstyrelsen i et indlæg på konferencen Offdig, der blev afholdt i marts.

»Derfor havde man skuffeselskaber. Folk kunne ikke vente to år, når de skulle i gang med deres ideer. I dag kan man stifte online, der er åbent 24-7 og tager ti minutter – så har du en virksomhed.«

Artiklen fortsætter efter annoncen

Erhvervsstyrelsen har sagt farvel til omkring 1000 medarbejdere i den tid, Carsten Ingerslev har været der, og de foretog kontrol samtidig med, at de registrerede virksomhederne.

»Den kontrol er gået fløjten, og derfor stod vi for nogle år siden og sagde: skal vi genansætte de 1000, eller gøre noget andet. Vi blev enige med os selv om, at vi vil lave machine learning.«

Forudser svindel to år ud med 80 procents sikkerhed

I 2017 gik styrelsen i gang og har i dag omkring 30 modeller i drift.

»Det har betydet et paradigmeskifte. I dag kan vi forudsige, hvem der vil svindle med moms og afgifter indenfor de næste 24 måneder. Det kan vi sige med en præcision på knap 80 procent, på det tidspunkt, hvor virksomheden er under stiftelse. Det er det sværeste tidspunkt, for da har vi ikke meget data endnu.«

Når en borger kommer ind på hjemmesiden og vil stifte firma under givent navn, en revisor og adresse, skal systemet prøve at regne ud om, det er en ‘good guy’ eller en ‘bad guy.’

»Det er relativt banalt. Vi har data, dem analyserer vi på,« siger Carsten Ingerslev.

Analysen kan munde ud i, at en sag får gult trafiklys – er ‘undringsværdig’ – og så bliver den givet videre til sagsbehandlere og jurister.

Hvis ikke, går den videre i systemet, og cvr-nummeret kan være klar efter få minutter.

For de 20 procent sagesløse, der uden skyld udpeges og tjekkes, kan stiftelsen tage en uge eller to.

Bageriet bor på tredje sal

»Vi kigger på al ting hele tiden, vi har en database, hvor vi samler data op. Når en virksomhed ændrer navn, branche, får ny direktør, eller ny revisor, så regner vi på, hvad det betyder for hvor undringsværdig virksomheden er.«

Er der tilknyttet en revisor, hvor klienterne har det med at gå konkurs – har mange foreløbige fastsættelser af moms, fordi revisor ikke har styr på det – er det en branche, som er problematisk – en adresse, som er underlig:

»Det er lidt mærkeligt, at dette bageri skal bo på tredje sal. Der er flere hundrede tusinde ændringer hvert år. Hver gang der sker noget, regner vi på det«. 

På konferencen Offdig talte Marius Hartmann (tv.), som er ph.d og chefarkitekt i Erhvervsstyrelsen og kontorchef Carsten Ingerslev samme sted om hvordan styrelsens machine learning-algoritmer finder svindlere og stråmænd.
Illustration: Tania Andersen.

Erhvervsstyrelsen har lavet en ny kontrolplatform, og det svære er at få sat modellerne i drift og integreret i fagsystemerne. Når man har mere end en håndfuld, kræver det systemunderstøttelse.

»Det er komplekst. Vi har lavet en ny kontrolplatform, som betyder at vi kan sætte nye modeller i drift. Det plejede at tage måneder at få nye modeller i drift – det kan vi nu gøre på minutter.«

Beslutningsstøtte

Carsten Ingerslev understreger, at machine learning ikke træffer ikke beslutninger på egen hånd, men understøtter de beslutninger, sagsbehandlerne ender med at tage.

»Vi kan med machine learning fokusere på de væsentlige sager. «

Der er eksempelvis ofte mange fejl i de årsregnskaber, styrelsen modtager

»Der er tonsvis af fejl, men de fleste af dem er lidt ligegyldige. Det interessante er at fokusere der, hvor der er et forsæt og ønske om at lave svig – ikke at få rettet ligegyldige fejl.«

Erhvervsstyrelsen har også traditionel kontrol baseret på stikprøver, og det bruger man til at holde øje med machine learning-indsatsen – er der den forskel mellem algoritmer og stikprøver, som forventes ud fra statistiske betragtninger.

Man har en grafdatabase med to mia. datapunkter. Det tal vokser hele tiden, fordi virksomheder sender nye data ind – nye momsindberetninger, adresseskift, ny revisor og nye regnskaber – men også fordi modellerne selv skaber et output på 30 gigabyte om året, som lægges oven i. 

Modellerne betyder, at Erhvervsstyrelsen har øget sit ‘kontroltryk’ væsentligt, og med meget større effekt end tidligere. I 2017 kørte man 800 kontrolsager, mens styrelsen sidste år var oppe på 19.000.

Knalder stråmænd på stribe

Machine learning har ændret selskabsloven, hævder Carsten Ingerslev, da det hidtil ikke har været forbudt at være ‘stråmand’ – en person, der indtager en pro forma-rolle, og dækker for de reelle bagmænd. Erhvervsstyrelsen kunne ikke finde stråmændene med de gammeldags metoder, men det kan man med machine learning.

»Så nu er det forbudt, og vi knalder dem på stribe – jeg tror vi anmeldte 600 stråmænd til politiet sidste år. «

Erhvervsstyrelsen har også behandlet danske virksomheders ansøgninger om økonomisk kompensation i forbindelse med corona-pandemien – 500.000 i alt. Også her benyttes machine learning til at kigge på ansøgninger. Man ser på, hvad der påvirker en ansøgnings såkaldte risikoscore. Det kan være en kombination af at en virksomhed er i rengøringsbranchen, har mærkelige nøgletal i sit regnskab, flere ‘foreløbige momsfastsættelser,’ som er noget Skat anvender, når man ikke får ordentlige momsindberetninger. 

Det er ikke forbudt i sig selv, men bidrager til mistanken om, at der ikke er rent mel i posen. Det kan føre til manuel sagsbehandling og eventuelt politianmeldelse senere.

Andre forhold, der kigges på, er konkurser, fiktive regnskaber, hvidvask og mere til. Mange af modellerne kigger på 30-40 forskellige parametre. To tredjedele af styrelsens politianmeldelser i forbindelse med kompensationsordningen blev udpeget af modellerne.

Stærkt framework kræves

Marius Hartmann er ph.d og chefarkitekt i Erhvervsstyrelsen. Han fortæller på Offdig-konferencen, at det er vanskeligt at holde styr på årsagerne til at en virksomhed udtages til kontrol, hvis man ikke har et stærkt framework.

Derfor har styrelsen udviklet frameworket ‘XRAI’ i samarbejde med ph.d-studerende Per Rådberg Nagbøl, hvilket har afstedkommet en række videnskabelige artikler og opmærksomhed fra konsulentfirmaet Gartner.

»Vi skal sikre tre perspektiver, før vi går i gang med at bygge en model: Forretningen skal være involveret – de er domænespecialister. For det andet er der et data science-perspektiv: Er der overhovedet et datagrundlag. Og så skal vi altid have juraen med. Det er tre lamper, der alle skal lyse grønt, før vi kan gå videre.«

Tidligere evalueringer af en given model gemmes som en fil i Yaml-formatet, der bor sammen med kildekoden.

»Når modellen udrulles, udstiller den udgangspunktet for vores forventninger til hvordan modellen vil opføre sig, så vi kan aflæse det på modellen i produktion. Det giver os en ide om, hvad vores forventninger var, da vi startede.«

Modeludviklingen følger almindelig 'ML-ops', som er machine learning-verdenens pendent til devops, samt god statistisk praksis, siger Marius Hartmann.

Der sidder en lille ‘termostat’ mellem modellen og det fagsystem, den betjener, som forretningen kan skrue på. Sagsbehandlerne kan skrue på parametrenes 'udsagnskraft' i fagsystemet. Det kan fortælle, om der er ‘model drift' – om modellen er ude af kurs – hvis der justeres hele tiden.

Et separat komponent med navnet ‘Catwalk’ giver forretningen mulighed for at validere eller kvalificere modellens output. Det giver også flere data, og en ide om præcisionen.

Softwareudviklere ud af data science-folk

Kontrolplatformen beror i høj grad på graf-data science.

»Når vi ender med en sagsafgørelse, kan vi med metadata spole tilbage til, hvor data kom fra. Det er meget godt at have bagefter. Det er ekstremt vigtigt, at man kan udrulle modellerne direkte via infrastruktur som kode, og at vi kan udrulle i arbejdstiden og ikke om aftenen,« fortæller Marius Hartmann.

Det er altid et dilemma, om man skal gøre data scientists til udviklere eller vice versa. Erhvervsstyrelsen har valgt at skabe softwareudviklere ud af data science-folk, men pakker dem så at sige ind i automatisering, så meget som muligt.

Det er følsomme datasæt, da der samkøres i stor stil. Derfor har styrelsen en række uformelle etiske principper. Det første princip er, at man ikke skaber lister af mennesker, der kan forsvinde ud af organisationen, som eksempelvis et regneark.

Evalueringen af modellerne handler også om at udfordre modellernes autoritet, så forretningen bliver ved at anvende sin sunde fornuft i forhold til modellens udsagn, mener Marius Hartman.

»Dataetik skal være datadrevet baseret på metrikker. Vi mener, at vi har fuld transparens og sporbarhed i vores data.«

Modellerne overvåges for ‘gaming’, hvor svindlere prøver at snige sig uden om algoritmen. Men konventionel kontrol kan også udsættes for gaming, påpeger kontorchef Carsten Ingerslev.

»Modeller har ofte 30 forskellige features, og de er svære for svindlerne at hoppe uden om.«

1 kommentar.  Hop til debatten
Debatten
Log ind for at deltage i debatten.
settingsDebatindstillinger
2
4. maj kl. 11:43

Dejligt, at i har fået lavet et så fint og relevant system. Stor ros for det. Det vil reducere og afsløre flere former for kriminalitet. Det vil spare bankerne for mange timers arbejde med at kontrollere om en virksomhed, der gerne vil have en konto er 'good guy' eller 'bad guy'.