Åbne offentlige data og privatliv: »Det er ikke nogen nem opgave«

Den offentlige sektor har travlt med at åbne op for data, men det giver en privacy-udfordring, påpeger DTU-lektor.

I den offentlige sektor er der fokus på at åbne op for offentlige data, så diverse datasæt bliver tilgængelige online. Alle kan eksempelvis tilgå diverse data online i registre som CVR, Den Digitale Tinglysning, Skats motorregister, diverse kommunale data og så videre.

Men i takt med, at datasæt bliver tilgængelige online, øges risikoen umiddelbart også for, at data kan præsenteres på en måde, der kan ramme borgernes privatliv.

Læs også: Fra CPR-numre til vandløb: Dyk ned i den samlede model for danske grunddata

Eksempelvis var der i 2016 historien om, hvordan en person havde høstet data fra Tingbogen under den digitale Tinglysning, så det nu var direkte muligt at søge på personnavne i stedet for adresser.

Og i den forbindelse er der hele den generelle udfordring ved, at datasæt kan sammenkøres.

På den måde kan data fra myndighed x sammenkørt med data fra myndighed y måske pludselig sige en masse om en person, som slet ikke var meningen, da dataene blev gjort offentligt tilgængelige.

Lektor Christian Damsgaard Jensen, sektionen for cybersikkerhed på DTU, peger på, at det er svært at beskytte privatlivet, når der bliver åbnet op for data. Og det skal ses i lyset af, at beslutningerne om at åbne op for data ofte bliver truffet lokalt af en myndighed, altså en slags silotankegang.

»Hvis man taler med folk i sundhedssektoren, så lader de til at have en fornemmelse af, at hvis man fjerner navn og adresse og personnummer, men beholder postnummer og alder, måske helt ned på fødselsdag i data, så er det stadig anonyme data,« siger Christian Damsgaard Jensen, der deltager på eventet Infosecurity Denmark til maj i København i en keynotedebat med Digitaliseringsstyrelsen om privacy ved åbning af borgerdata (se nederst).

Mulige kandidater indsnævrer sig

Christian Damsgaard peger på, at det med viden om fødselsdag og et postnummer sagtens kan være muligt at finde frem til en person, da antallet af mulige kandidater, der passer på kriterierne i en kommune, kan vise sig at være begrænset.

Formålet med at åbne op for data fra det offentliges side er at skabe en ekstra værdi i forhold til, hvordan data kan anvendes. Og Christian Damsgaard Jensen peger i den forbindelse på, at denne værdi først bliver skabt, når data bliver sammenkørt med andre åbne datasæt.

»Det er jo en silobeslutning at åbne data, men man får kun værdi af de data, fordi man ikke tænker i silotankegangen. Så man frigiver data under en form for tænkning, velvidende at hele formålet med det er at bruge det under en anden form for tænkning. Og det virker jo lidt paradoksalt.«

Læs også: Digitaliseringsstyrelsen slår fast: Masser af vækst i åbne grunddata

Data i fremtiden

Og selvom en offentlig myndighed måtte gøre sig nok så mange overvejelser i forhold til privacy og hvilke attributter, der skal knyttes til et datasæt, når der åbnes op, så kan det være svært at kontrollere, hvordan data ender med at blive brugt.

»Jeg tror, det er utroligt svært. Dybest set handler det om, hvilke andre datasæt man kan lave fællesmængder med,« siger Christian Damsgaard Jensen.

I den forbindelse bruger han udtrykket ‘snitte', som her henviser til at reducere et datasæt ved at danne fællesmængde med et andet datasæt, hvor man ved, at det objekt, man søger, også er repræsenteret

»Problemet er, at muligheden for at snitte jo ikke kun er i forhold til de datasæt, der er i dag. Der kommer jo nye datasæt frem næste måned og til næste år. Og hvad de indeholder, kan vi jo ikke forudsige i dag. Så nogle af de måder, vi tænker om tingene i dag på, vil jo blive invaliderede. Og der kan ligge kopier.«

Drop det person-centriske

En løsning i forhold til at gøre sammenkøring af data mindre problematisk set fra et privacy-mæssigt perspektiv kunne ifølge Christian Damsgaard Jensen være i mindre grad at knytte data til personer.

»Hele den måde, vi tænker vore databaser på, med at vi skal have bundet ting op på en person - det kan godt være, vi skal prøve at binde det op på en anden måde. Hvis man gerne vil lave et nyt grunddata-system, så skulle man måske gå radikalt til værks og se på, hvordan man kunne knytte ting sammen, uden det er gennem personer, men så man kan få den samme værdi.«

Læs også: Datafordeleren: Her er udfordringerne når det offentlige skal dele sine data

Han peger på, at det også ville betyde, at når der eksempelvis sker et læk af data fra også private virksomheder, så vil værdien af sådanne data være mindre, hvis dataene ikke kan kobles til en person.

Og i den forbindelse fremhæver Christian Damsgaard Jensen cpr-nummeret, som mange data i både private og offentlige virksomheder bliver knyttet til, og i sagens natur er cpr-nummeret personhenførbart.

»Problemet er jo den måde, vi bruger cpr-nummeret på. Som autentifikationselement, samtidig med at vi bruger det som identifikation. Som identifikation skal vi give det til gud og hvermand, som autentifikation skal det være dybt hemmeligt,« siger Christian Damsgaard Jensen.

I forhold til, hvordan private og offentlige databaser så skal indrettes, hvis data generelt ikke skal være personhenførbare, fremhæver Christian Damsgaard Jensen mulighederne for, at borgerne selve kan vælge, hvordan de vil identificere sig over for forskellige aktører.

Digitaliseringsstyrelsen og Christian Damsgaard diskuterer sikkerhed for persondata i dataåbningen på Infosecurity Denmark 2017, som Version2 er medarrangør af.

Annonce:
Kom gratis med til Danmarks største IT-sikkerhedsevent!

Infosecurity, Europas mest populære IT-sikkerhedsevent, afholdes i Danmark den 3. og 4. maj 2017. 60 udstillere, 5 konferencesale og mere end 80 seminarer og caseoplæg fra ind- og udland. Læs mere her.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (8)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Claus Juul

er der så mange der har så travlt med at gøre datasæt åbne, når data som alle er påvirket af ikke er tilgængeligt.

Hvorfor er domsafgørelser ikke offentligt, de styrer trods rigtigt meget fx hvordan en sag skal falde ud, hvis der ikke er ændret praksis siden den seneste dom.

Dette "problem" er langt vigtigere for et demokratisk land som Danmark end at nogen kan søge i virksomhedsdata eller sundhedsdata.

Anne-Marie Krogsbøll

"Hele den måde, vi tænker vore databaser på, med at vi skal have bundet ting op på en person. Det kan godt være, vi skal prøve at binde det op på en anden måde. Hvis man gerne vil lave et nyt grunddata-system, så skulle man måske gå radikalt til værks og se på, hvordan man kunne knytte ting sammen, uden det er gennem personer, men så man kan få den samme værdi."

Sympatisk tanke, som jeg gerne se ført ud i livet. Men jeg kunne forestille mig, at der vil komme en voldsom modstand fra sundhedsvæsnet og medicinalindustrien, hvis man virkeligt effektivt fjerner personhenførbarheden i vore sundhedsdatabaser, når den ikke direkte er nødvendig for behandlingen. Og så ved vi jo godt, hvem der plejer at vinde....

"Hvis man taler med folk i sundhedssektoren, så lader de til at have en fornemmelse af, at hvis man fjerner navn og adresse og personnummer, men beholder postnummer og alder, måske helt ned på fødselsdag i data, så er det stadig anonyme data,"

Ja - det er skræmmende. Og jeg mistænker, at man vil få samme svar, hvis man spørger sundhedsministeren, og at det også langt hen ad vejen er den definition, man regner med i sundhedslovgivningen.

Mogens Bluhme

Latanya Sweeney har påvist i starten af årtusindskiftet, at omkring 87 % af den amerikanske befolkning kunne identificeres ud fra fødselsdato, køn og postnummer. K-anonymity har vist sig utilstrækkeligt til at de-identificere data. Bare forsøget på at gøre det har vist sig at kræve mange ressourcer, faktisk er det påvist at være NP-hård. Sidenhen er der også udviklet bedre metoder, over L-diversity, t-closeness til Differential privacy, hvori der også indgår tilsætning af støj.

Den værdi, som åbne data kan bibringe eksempelvis samfundsmedicin, må ikke underkendes så det er et dilemma, der SKAL løses. Man må sætte sin lid til at politikere, som skal udstikke retningslinier samt tage beslutninger og dataforvaltere er helt fremme i skoene og støtter sig op ad den nyeste forskning på området, der er meget mere komplekst end de fleste formoder.

Der er ikke nogen 100 % garanti men opgaven med re-identifikation kan gøres så besværlig, at det påviseligt er ond vilje, hvis man benytter sig af det.

Et forsikringsselskab vil kunne dreje nøglen med det samme, hvis det bliver kendt at de har brugt massive ressourcer på identifikation af personer, det ikke har været meningen at kunne identificere.

Hvad nu med spørgsmålet om tredjepartsslyngler? Hvis nu forsikringsselskaber lader disse gøre det beskidte arbejder og køber informationerne af dem?

Bare rolig - bliver hæleriet kendt vil selskabet heller ikke have flere kunder tilbage.

Dataetik er noget som dataforvaltere, politikere, IT-folk og kommercielle aktører skal tage meget mere alvorligt hvis vi skal have en fornuftig balance.

Log ind eller Opret konto for at kommentere