bloghoved erik david johnson

Danmarks nationale datastrategi

Danmark er nummer 1 i offentlig digitalisering, men hvordan klarer SMVerne sig når det kommer til digitalisering og datadrevne løsninger? Og kan al digitalisering finde værdi gennem innovation? Hvis vi i Danmark skal komme godt igennem COVID-19 og sikre vores digitale innovationspotentiale, er der brug for et fælles mål og en fælles indsats.

Som AI-ekspert har jeg længe råbt højt omkring hvorledes datagrundlaget er totalt afgørende for en virksomheds eller organisations AI-drevne innovationspotentiale. Kort sagt, så skal man finde sine innovationsmål og derefter se kritisk på om det data man har til rådighed understøtter disse mål. Hvis de innovationsmål er AI-drevne, så er det en AI-opgave at evaluere og sikre det nødvendige grundlag på forhånd.

Virksomheder og organisationer går i dag baglæns til værks og har indsamlet data uden dette fokus. De er derfor nødt til at lave en mindre PoC der kan bruges til at evaluere datagrundlaget, og hvis data viser sig at kunne understøtte det valgte innovationsmål, kan man investere i det større projekt:

Illustration: EDJ

Med denne tilgang risikerer man dog at resultatet let kan være at det data man har indsamlet UDEN at inddrage AI-eksperter eller have sine innovationsmål for øje, IKKE kan bruges til at understøtte disse. Så skal man i gang med sin dataindsamlingsstrategi og opsamle data i en længere periode inden man når han til at kunne lave løsninger der kan produktionssættes:

Illustration: EDJ

Efter at have set dette udmønte sig gang på gang er det så småt begyndt at løbe mig koldt ned ad ryggen når vi som nation løber rundt med armene i vejret over Danmarks førsteplads i offentlig digitalisering. Forstå mig ret; Det er et rigtig godt udgangspunkt for Danmark, men det kan også risikere at være en rigtig farlig sovepude.

For hvem siger at det data vi indsamler understøtter vores innovationsmål – dvs. det samfund vi ønsker at skabe? Hvem har i det hele taget sikret at vi sørger for at etablerer disse innovationsmål, så vi ikke bare lader tilfældigt opsamlet data definere os gennem det muliges kunst? Hertil kommer at rigtig meget offentlig data ofte er uhensigtsmæsigt opdelt, svært tilgængeligt eller helt utilgængeligt for danske virksomheder – ikke mindst SMVer som kan have svært ved at nedbryde de barrierer der findes i dag.

Behovet for innovation skal selvfølgelig stilles over for de dataetiske hensyn, som Danmark også har aspirationer om at være førende inden for på nationalt plan. Vi er nødt til at sikre balancen mellem de to hensyn gennem en fælles indsats. Det hele skriger på det jeg tidligere har omtalt som en ’national datastrategi’.

Denne dialog har jeg fortsat i mit virke i Danmarks Erhvervsdigitaliseringsudvalg sammen med IT-branchen, og jeg glad for at kunne fortælle at en national data strategi er det første af 12 konkrete forslag som IT-Branchen nu præsenterer til en genopretning af danske virksomheder, der både på kort og lang sigt vil styrke den digital omstilling og vækst i erhvervslivet.

Nu ser jeg frem til at følge hvordan forslaget bliver taget imod og sat i spil i praksis.

Kommentarer (11)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Jesper Løffler Nielsen Blogger

Hej Erik. Spændende indlæg, og jeg er enig i det grundlæggende budskab. Dog vil jeg pointere, at vores nationale strategi for kunstig intelligens jo har et helt afsnit (afsnit II), som indeholder en strategi for data, og som også oplister de øvrige inititativer der er taget på dette område.

Dernæst har vi jo tidligere på året fået en data strategi, blot på EU plan. Den er ambitiøs, og den behandler faktisk mange af de temaer du rejser.

Du kan dog godt have ret i, at der fortsat er plads til en mere udførlig strategi fra dansk side.

  • 2
  • 0
#2 Erik David Johnson Blogger

Hej Jesper

Tak skal du have. Jeg var skam med til lanceringen af vores nationale strategi for kunstig intelligens, ved det digitale topmøde 2019, men det ser jeg mere som en hensigtserklæring og anerkendelse af behovet for det arbejde der stadig udestår.

Både datastrategi og Dataetik kommer til at ramme os fra EU-siden, men lige som med CSR fpr år tilbage, ser man mod Danmark for isnpiration, så vores egne tiltag har potentiale for at inspirere og påvirke den anden vej også. Vigtigst er at retningslinjer for EU ikke kan bruges direkte og operationel på vores egen særegne datainfrastruktur, så vores egne initiativer er ikke bare en fordel men en direkte nødvendighed - vi kan bare drage rigtig meget nytte af at være på forkant.

Vh.

Erik

  • 0
  • 0
#4 Niels Madsen

Hej Erik, hvordan forholder du dig til spørgsmålet om hvorvidt befolkningen i almindelighed ønsker at forære deres data (-altså deres "nye guld") til private virksomheders innovationsprojekter? -Hvad nu hvis et væsentligt antal ikke vil være med til det? -Skal de have lov til at bestemme over brugen af egen data, eller skal de evt. straffes for ikke at medvirke?

  • 6
  • 0
#5 Niels Madsen

I øvrigt er siden med de "12 konkrete forslag som IT-Branchen nu præsenterer" https://itb.dk/maerkesager/digitalt-erhverv/digital-genstart-skal-lofte-... prydet at en meget sigende illustration, selv om det næppe har været hensigten: En mand i jakkesæt flyver afsted oven på en bombe, altimens han uden at ænse hvad der i øvrigt sker stirrer som hypnotiseret på et regneark på sin laptop.

Det er uklart om manden er politiker eller lobbyist, men huhej hvor det går.

  • 9
  • 1
#6 Erik David Johnson Blogger

Hej Niels, Jeg forstår godt din skepsis, men her må den fælles indsats netop være instrumental når vi skal sikre at korrekt anonymiserede data ikke er personhenførbare.

Det er ikke en nem problemstilling og vi skal ikke løbe efter USA og Kina, men vi skal alligevel kigge på hvordan vi bygger det bedst mulige samfund for os selv, og det inkluderer at prioritere vores innovationspotentiale.

  • 0
  • 0
#7 Niels Madsen

Hej Erik, Tak for svar, men ville du egentlig selv være tilfreds med noget så diffust hvis en hel masse ukendte mennesker fx. gerne ville låne din bil eller hus (eller børn), eller noget andet du har kært, helt uden at gøre klart rede for hvad de skulle bruge det til, og uden andet end ikke-juridisk bindende etiske hensigtserklæringer (som kan ændres uden varsel), eller love og bekendtgørelser (som også kan og bliver ændret som vinden blæser)?

Jeg har nemlig svært ved at få øje på den fælles indsats her. Hvornår har andre end en lille håndfuld privatpersoner som mig nogensinde brugt energi på ordentlig korrekt anonyisering, som i sagens natur ikke er personhenførbar? I hvertfald ikke danske virksomheder eller diverse regeringsudpegede etiske udvalg.

Vi kan jo som et af mange eksempler se på de såkaldte anonyme trivselsmålinger som nu indgår i et machine learning projekt, hvor de er blevet sammenkørt med en meget, meget lang liste af andre oplysninger om de enkelte elever og deres familier. Dette ville jo ikke kunne ske hvis disse oplysninger var blevet anonymiseret som lovet.

Så nej, jeg betragter ikke dette som et fælles projekt. Jeg betragter det som en nationalisering af borgernes privatliv, i bedste Enhedsliste-stil, lige bortset fra at alle mulige virksomheder gerne vil have del af kagen.

Jeg arbejder selv bl.a. med IoT, of har intet imod teknologi og machine learning, og jeg ved også at der er rig mulighed for at innovere, uden at nationalisere alle borgernes personlige plysninger.

Jeg ser ikke at der kommer andet en vage forsikringer og udenomssnak hver gang mine kritikpunkter bliver rejst, og det synes jeg er sigende. Jeg har derfor selv taget konsekvensen, og lader derfor fx. ikke mine børn deltage i bl.a. Nationale test og trivselsmålinger, ligesom jeg heller ikke længere vil deltage i spørgeskemaundersøgelser.

Jeg har i øvrigt heller aldrig mødt nogen som ønsker at dele deres data på de vilkår som der lægges op til, hverken chauffører, sygeplejersker, dataloger eller ingeniører. De eneste jeg nogensinde har talt med som ønsker dette, er folk som selv har økonomisk eller professionel interesse i få adgang til alle disse data.

  • 11
  • 1
#8 mikkel Holm

Kære Erik, du skriver følgende:

Behovet for innovation skal selvfølgelig stilles over for de dataetiske hensyn, som Danmark også har aspirationer om at være førende inden for på nationalt plan. Vi er nødt til at sikre balancen mellem de to hensyn gennem en fælles indsats.

Jeg kan ikke helt finde klarhed for, hvilke parter der indgår i denne fælles indsats? Det kan være du kan uddybe.

Vi borger, hvis data, ejet af staten - har absolut intet at skulle have sagt. Som jeg forstår dig, er det denne data der skal laves lettere adgang til? Vi lever desværre i en tid, hvor tilliden til staten er hurtigt dalende, og de sundhedsdata som beskrives i punkt 1, for at være af høj kvalitet, vil i fremtiden forværres ganske betrægteligt, i takt med overgrebene.

Data er nutidens guld, mens privacy er fremtidens guld. Vi står som samfund overfor et valg. Jeg holder på vi skal værne om tilliden og dermed privacy. Vi vil stå stærkere i fremtiden, ved ikke at give afkald på de værdier nu.

  • 6
  • 0
#9 Bjarne Nielsen

... men her må den fælles indsats netop være instrumental når vi skal sikre at korrekt anonymiserede data ikke er personhenførbare.

Så du siger, at det må nogle andre tage sig af? Jamen, så synes jeg, at vi skal afvente det, og indføre et moratorium på brugt af persondata, som forudsætter anonymitet, indtil det er blevet genstand for ordentlig forskning. Alt andet ville være, at spænde vognen for hesten. Hvis bare der gik 1 øre til forskning i anonymisering for hver krone som går til rode rundt i "anonymiserede data", så ville vi i dag være langt bedre stillet.

Vi så med Trivslesundersøgelsen, som ikke var "anonym i juridisk forstand", at "anonym" som oftest betyder at direkte identifikatorer, som f.eks. navn eller cpr.nummer, er lagt over i et andet regneark, men række 32768 i det ene regneark svarer præcis til række 32768 i det andet. Så "anonym" betyder ofte kun "pseudonym" - og i mange tilfælde end ikke det, men kun "fortrolig" - dvs. at du og jeg er afskåret fra indsigt, men de særligt (selv-)udvalgte kan se alt.

Så kommer indvendingen om, at man kun interesserer sig for de store tale og de tydelige tendenser. Nu skal jeg give dig et stort tal og tydelig tendens: der er knap. 6 mio. danskere og det tenderer til, at halvdelen af dem er kvinder.

Modsætningvist, så kan jeg - med udgangspunkt i et offentlig tilgængeligt (i hvertfald da jeg kiggede) , angiveligt "anonymt" datasæt - fortælle dig, at der var præcist tre kvinder over 44, som fik en provokeret abort i første halvår i 2007 i Region Nordjylland: en fra Hjørring, en fra Rebild og en fra Aalborg. Så meget for store tal og anonymitet. Men hvem bekymrer sig for den et-benede fra Samsø? Eller en kvinde over 44 fra Aalborg?

Eller de 4-5 drenge (jeg husker ikke det præcis tal) fra Ertholmene, hvis svarfordeling på alle spørgsmålene i Trivselsundersøgelsen lå tilgængelig i den alment tilgængelige "datakube" - "...kom og vær innovativ med vores data!" - det er nærmest systematisk et svar så lå lavere end resten. Jeg tror, at der var nogen, som her trods alt lyttede, for jeg har ikke kunne genfinde de data senere.

Vi kan ikke - som vi gør i dag - overlade noget så vigtigt som anonymisering, til dem, som er interesseret i at bruge data; de har et såkaldt perverst incitament til at undergøre det. Eller mene, at det er er "someone elses problem".

  • 4
  • 0
#10 Bjarne Nielsen

Lad os lige for en stund antage, at der udfordringerne med anonymitet er løst. Så er alle glade, right?

Næh, ikke ligefrem, se f.eks. denne aktuelle artikel: https://www.theguardian.com/technology/2020/sep/06/from-viral-conspiraci...

Vi underkaster medicin strenge krav om, at de virker bedre end kendte alternativer og at der ikke er uforudsete bivirkninger. Men hvad gør vi med ML? Lader enhver lege uden ansvar, selvom det tydeligvis i mange tilfælde har store negative konsekvenser for vores samfund og for enkeltpersoner.

Måske fordi at skaderne ikke er fysiske, i hvertfald ikke direkte? Men det bliver de ikke mindre alvorlige af.

Artiklen peger på, at fadæsen med eksamensalgoritmen i UK var genstand for offentligt oprør, og som derfor blev rullet tilbage, kan være det første eksempel på, at man har kunnet udfordre skadelige algoritmer. At man just i Santa Cruz, Californien har rullet arbejdet med predictive policing tilbage, er efter min mening endnu et eksempel på et succesfuldt oprør imod skadelige algoritmer, så jeg tvivler på at briterne kan tage æren for en world-first her.

Men det store problem er, at det sjældent går ud over større grupper på en så tydelig urimelig måde; det er som hovedregel individer, som kommer i klemme, og ofte uden at de ved det, eller er i stand til at mobilisere en fælles opposition.

Som f.eks. denne sag fra Østrig, hvor en person ikke kunne blive kunde hos el-selskabet, fordi et kreditvurderingsbureau, som i øvrigt nægter at overhovedet at kende ham, har givet ham en kreditscore på 446 ud af 700, hvilket betyder "pas på!": https://noyb.eu/en/credit-scoring-negative-credit-rating-generated-witho... - han har så undtagelsesvist overskuddet og ressourcerne til at forfølge sagen, og får heldigvis kvalificeret bistand. Så heldig er langt de færreste, som bliver kørt over af algoritmerne - det er nemlig ofte dem, som i forvejen er sårbare og udsatte.

Det må være på tide, at indføre objektivt ansvar for skadesvirkninger ved algoritmebrug - og lovkrav om ansvarsforsikringer. Hvis det vitterligt er så ufarligt, som man gerne vil gøre det til, så kan det ikke koste mange kroner.

PS: Overskriften er et venligt nik til Boris Johnson, som i vanlig stil ikke vil tage ansvar for egne eller sines fejl, men som sædvanligt skyder skylder på andet eller andre: her en "mutant-algoritme", som hans minister adskillige gange blev advaret imod, men alligevel moslede videre med: https://www.theguardian.com/politics/2020/aug/26/boris-johnson-blames-mu....

  • 5
  • 0
Log ind eller Opret konto for at kommentere