Dansk forsker vil skabe ægte data-anonymisering: Man begrænser matematisk, hvor meget man lækker

31. marts kl. 05:008
Rasmus Pagh
Illustration: Tina Virenfeldt Kristensen.
Med differential privacy udvikler Rasmus Pagh, professor ved DIKU, algoritmer, der skal være med til at styrke oplysningers anonymitet og borgeres tillid til databehandling.
Artiklen er ældre end 30 dage

Det er svært at forske uden dataindsamling, for hvis vi eksempelvis vil vide noget om samfundet omkring os, må vi også vide noget om dem, der udgør samfundet.

Og selvom mange nok ville argumentere for, at dét er en bevaringsværdig praksis, er der også en gruppe privacy-fokuserede personer, som rækker en finger i vejret og råber: »Husk privatlivet.«

Det er nemlig ikke en let opgave at sikre datasubjekters privatliv, når dataansvarlige offentliggør ‘anonyme’ oplysninger om borgere, fortæller Rasmus Pagh, professor i Algorithms and Complexity ved Datalogisk Institut på Københavns Universitet (DIKU): 

»Når man offentliggør analyser af data, så risikerer man faktisk at kompromittere folks privatliv, selvom statistikken ikke direkte siger noget om enkeltpersoner.«

Artiklen fortsætter efter annoncen

Selvom data er anonymiseret, findes der nemlig tilfælde, hvor personer har haft held med at ‘afanonymisere’ oplysningerne igen ved at sammenholde dem med anden data. Derfor forsker Rasmus Pagh inden for området ‘differential privacy’.

»Det handler om, hvordan man kan lave forskellige former for bearbejdning af følsomme data på en måde, så man undgår at afsløre for meget om data, men samtidig tillade, at man for eksempel kan publicere resultatet af en analyse,« fortæller han.

Og selvom teknologien har sine udfordringer og stadig befinder sig i et tidligt udviklingsstadie, kan den på sigt styrke borgeres tillid til forskning og gøre dataindsamlingen lettere og mere privacy-fokuseret, uddyber han.

Inspireret af Latanya Sweeney

Et af de første eksempler på, at ‘anonyme’ data alligevel ikke var anonyme stammer fra USA og var med til at inspirere forskningsområdet ‘differential privacy’, fortæller Rasmus Pagh.

I midten af 1990’erne offentliggjorde ‘Massachusetts Group Insurance Commission’ (GIC), en statslig organisation i USA, der tilbyder sundhedsforsikring til borgere, data på offentlige medarbejdere med et formål om at hjælpe forskere.

Man havde ‘anonymiseret’ oplysningerne, som bestod af alle de registreredes hospitalsbesøg, ved at fjerne detaljer som navne, præcise adresser og personnumre. Den daværende guvernør i Massachusetts forsikrede borgere om, at deres privatliv var sikret.

Men på det amerikanske universitet Harvard begyndte Latanya Sweeney, som dengang var i færd med at opnå en kandidatgrad i datalogi, at undre sig over, hvor anonyme oplysningerne egentlig var.

Derfor anmodede hun om en kopi af data og gik i gang med et efterforskningsarbejde, der viste sig ikke at være specielt omfangsrigt. Hun vidste i forvejen, at guvernøren boede i byen Cambridge i Massachusetts, som har omkring 54.000 borgere og syv postnumre.

For 20 dollars købte hun sig adgang til en database fra byen, der blandt andet indeholdte navne, adresser, postnumre, fødselsdage og køn på alle stemmeberettigede i Cambridge – den slags data er nemlig offentlig i USA. Ved at sammenligne oplysninger i begge datasæt, fandt hun frem til guvernørens hospitalsbesøg.

»Det viste sig, at der kun var seks mennesker i den database, som havde samme fødselsdag som guvernøren. Kun tre af dem var mænd, og én boede i samme postnummer, så det betød, at hun simpelthen kunne identificere, hvem han måtte være,« fortæller Rasmus Pagh.

Latanya Sweeneys succes med at afanonymisere data er langt fra det eneste eksempel, uddyber han, og det viser, at den traditionelle løsning, hvor man ‘ad hoc’ fjerner de oplysninger, der mest åbenlyst er et problem i forhold til privacy, ikke fungerer.

»Differential privacy er en mere systematisk måde at gøre det på. Man begrænser matematisk, hvor meget privat information, man lækker,« forklarer han.

Slører ny medarbejders lønniveau

Forskningen inden for differential privacy omhandler mange forskellige typer af data, men for at forklare det på en forholdsvis simpel måde, tager Rasmus Pagh udgangspunkt i numeriske data.

»Et eksempel kunne være, at man frigiver lønbudgettet for en virksomhed eller en afdeling, og lad os sige, at man frigiver det hver måned. Forestil dig, at der begynder en ny i afdelingen i februar måned, og lønningerne i øvrigt er uændret. Hvis du så kender det præcise lønbudget for januar og februar, så vil du vide, hvor meget den nye medarbejder får i løn,« fortæller han og uddyber:

»Med differential privacy ville man ikke fortælle præcis, hvor meget man har brugt på løn i en given måned.«

I stedet kan han bruge nogle algoritmer til at finde ud af, hvor meget ‘støj’, der skal lægges til eller trækkes fra hver måned; et randomiseret tal som eksempelvis 503 kroner i januar og -722 kroner i februar. På den måde slører man, hvor meget den nye medarbejder præcist får i løn. 

»Man kan selvfølgelig lægge utrolig meget støj til for ikke at afsløre noget som helst. Men så er dét, man får ud, også ret ubrugeligt. Omvendt, hvis du vil kende det helt præcise lønbudget, så bliver det ikke privat,« forklarer forskeren.

»Det, man bruger matematikken til, er at finde en balance mellem datakvalitet  og privacy. Det er en matematisk veldefineret begrænsning for, hvor meget du kommer til at vide.«

Måske ved man allerede, at det både er usandsynligt, at den nye medarbejder tjener over 200.000 kroner om måneden, og at hun tjener under 10.000 kroner om måneden. Men man har måske en formodning om, at hun tjener – lad os sige – maksimalt 50.000 kroner hver måned. Differential privacy giver nogle garantier for at bevare en vis usikkerhed omkring hendes faktiske lønniveau.

»Man har ofte noget viden om data i forvejen, men hvor meget mere sikker bliver du så på din formodning? Hvor meget mere ved du efter at have set data? Differential privacy kan give garantier for, at man ikke øger sin viden med mere, end hvad der er nødvendigt,« fortæller han og uddyber:

»Lad os sige, at man først formoder, at der er 10 procent sandsynlighed for, at hun tjener mere end 50.000. Differential privacy begrænser, hvor meget den sandsynlighed stiger. Det kan godt være, at den bliver lidt større eller mindre, men den bliver mellem for eksempel 9 og 11 procent.«

Datakvaliteten falder

Selvom differential privacy kan give nogle garantier for, hvor tæt ens formodning om data kommer på sandheden, har teknologien sine begrænsninger, erkender Rasmus Pagh:

»Vi ved, at der er nogle ting, som simpelthen ikke kan lade sig gøre. Eksempelvis, hvis man bliver ved og ved med at publicere nye analyser af de samme data, så bliver det til sidst umuligt at skjule informationerne.«

Hvis en virksomhed eksempelvis frigiver lønbudgettet for en meget lille afdeling, hvor der kun sidder én person, med differential privacy, og det sker måned efter måned, kan man på et tidspunkt regne et gennemsnit ud, som er meget tæt på det faktiske lønniveau.

Det er heller ikke til at undgå, at teknologien går ud over datas kvalitet. I USA har US Census Bureau, der svarer til Danmarks Statistik, for nyligt udgivet den store 2020 census, hvor man har brugt differential privacy. Ifølge Rasmus Pagh har den beslutning mødt kritik, fordi der kommer støj ind i data.

»Konkret kan det betyde, at der er små bysamfund, der er forsvundet, hvor det pludselig ser ud som om, der ikke bor nogen. Eller det ser ud som om, at der er tomt i bestemte bygninger, selvom det i virkeligheden ikke passer. Det er en konsekvens af, at man lægger støj til; at man får nogle ændringer på den information, man offentliggør.«

Privacy fører til tillidsfulde datasubjekter

Når datakvalitet falder, er der ting, man ikke kan bruge oplysningerne til længere. Det bliver eksempelvis sværere at forske i samfundsforhold, forklarer han:

»Men US Census Bureau siger, at det står i forfatningen i USA, at de er nødt til at gøre det, der er nødvendigt for at beskytte borgere. Det er sådan, man får folk til at fortælle sandheden,« understreger forskeren.

»I USA er det  folk selv, der melder data ind. Det er ikke automatisk registreret af myndighederne, men man udfylder spørgeskemaer, og hvis man skal få folk til at svare sandfærdigt, så er det vigtigt, at det ikke kan have konsekvenser for de borgere, der svarer.«

Så man er nødt til at have noget privacy for overhovedet at kunne indsamle data?

»Ja præcis. For at have tillid til, at man holder data fortroligt, så er man nødt til at have metoder til at sikre privacy.«

Det er her, differential privacy kommer på banen. Men det teknologiske område er stadig meget ungt, og derfor er ikke helt enkelt for ‘almindelige’ danske virksomheder at tage teknologien i brug, ifølge Rasmus Pagh.

Lige nu er det primært store amerikanske tech-giganter som Google, Facebook og LinkedIn, der investerer i området, fordi de ser det som en måde at bevare folks tillid til, at deres privatliv bliver respekteret, uddyber han.

Men området udvikler sig hurtigt, og derfor bør dataansvarlige virksomheder holde øje med det, for lige pludselig dukker der måske et værktøj op, som kan udbrede differential privacy og den databeskyttelse, som følger med.

Professoren vil udbrede differential privacy

I øjeblikket bruger Rasmus Pagh studenterprojekter som en måde at arbejde med differential privacy i det danske samfund. Lige nu kører han et projekt inden for det offentlige og håber på flere projekter i fremtiden, hvor han kan prøve teknologien af 'i virkeligheden'.

Oplev Rasmus Pagh fortælle mere om differential privacy på årets V2 Security-konference til maj.

8 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
7
1. april kl. 16:46

Hov! det var ikke meningen det indlæg skulle være sendt fire gange, men i min Firefox (som er sat til at acceptere cookies fra version2.dk, og afvikle alt det java-script der er på siden, undtagen det der kommer fra policy.app.cookieinformation.com - hvad skal det gøre godt for) skete der ikke noget når jeg trykkede "Udgiv" - og der er ikke nogen funktion til at slette indlæg.

2
31. marts kl. 14:02

Prosit

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Ja, forsiden har det ikke så godt - endnu. Og Varnish-opsætningen lader noget (læs: en del) tilbage at ønske - at dømme efter svartiderne ...

Gid det må bedre(s).

6
1. april kl. 16:40

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

8
1. april kl. 19:25

Samme problem her :-(

Og får mail hvert gang der kommer et nyt indlæg :-( :-(

I de "gode gamle dage" kunne vi nøjes med en enkelt mail.

5
1. april kl. 16:39

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

4
1. april kl. 16:39

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

3
1. april kl. 16:39

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

1
31. marts kl. 08:09

About time ... !

Det er mit personlige indtryk at "forskning" i "anonymisering" og "teknikker" til ditto, for langt den overvejende del er sket fra parter, som har en tydelig interesse i at suge flest mulige data ud af os, og mest muligt ud af disse data, og som mest af alt har brug for røgslør, så vi ikke kan se, hvad der sker, og blive bange, og enten begynder at stille rimelige krav, at svare plausibel fremfor sandt, eller helt undlader at medvirke. Godt at se, at "modstandsbevægelsen" ikke er helt uddød.

Diffential privacy italesætter (på formel vis) netop modstriden imellem høj præcisition og anonymitet. Man kan ikke have begge dele. Og jo mindre man anonymiserer (altså jo højere præcision man ønsker sig), jo færre gange kan man bruge de samme data, før sikkerhedsmargin er slidt helt væk. Her skal man være opmærksom på, at det ikke kun gælder den aktuelle sampling af bagvedliggende data, men også gentagen sampling af de samme bagvedliggende data, hvis de bagvedliggende data har en form for permanens. Og det har det jo ofte, når man måler på virkelige mennesker.

Så vi skal passe på med at kaste data i grams til ligegyldigheder - vi kunne jo få brug for dem til noget vigtigt.

Vi behøver ikke opfinde eksempler, som den nyansattes løn, for der findes eksempler fra virkeligheden. På Langelinjeskolen på Østerbro i Kbh. var en elev blevet fritaget for den herostratisk berømte "Trivselsundersøgelse", men fordi at systemerne slet ikke var gearet til fritagelse (det kom vist som en eftertanke), så kom hun alligevel til at svare, og hendes besvarelse kom med i den detajlerede statistik over fordeling af svar på skolen (der var godt 900 svar, jeg husker ikke det præcise tal, det kunne f.eks. være 932, fordelt på årgange).

Nu bad man så kom at få hendes resultater ud af statistikken, og det kunne man på den ene side godt, for undersøgelsen var kun "anonym" overfor skolerne, mens man internt have fuld klarhed over, hvem som havde svaret hvad, så man efterfølgende kunne registersamkøre data til allehånde undersøgelser og statistikker til ministerielt og politisk anvendelse, samt forskning af "væsentlig samfundsmæssig interesse" (har I mødt forskning, som ikke var af "væsentlig samfundmæssig interesse", og hvis ja, burde det så ikke være stoppet?). For data er - med myndighederne egne ord, og kun efter at have fået vredet armen langt op på ryggen - "ikke anonyme i juridisk forstand".

På den anden side, så var tallene ude - jeg har personligt kigget på den, i den "datakube" som var offentligt tilgængelig (Langelinjeskolen er nok den eneste Københavnske skole, som jeg kan genkende, og sagen blev vist også omtalt over flere gange her i V2), og hvis jeg havde data for de 932 elever før, og nu kunne få data for de 931 elever bagefter, så kunne jeg bare trække antal svar i de forskellige kategorier fra hinanden, og præcist se, hvad den person, som var taget ud af svarene, havde svaret. Så nej, hun kunne ikke blive taget ud af statistikken, selvom hun teknisk set godt kunne - ikke uden at hun ville blive endnu mere afsløret!

Apropos datakuben og afsløringer, så kunne man dengang også se svarene fra de fire drenge fra Christians Ø, og man kunne se, at svarene nærmest systematisk var tre på gennemsnit og en under. Nu kan man jo ikke vide, at det er den samme person, som falder igennem hvergang, men jeg kan godt huske fra folkeskolen, hvem som var "tilflytteren", og det ville ikke være overraskende at finde ham blandt svarene med lav trivsel (havde vi har Trivselsundersøgelser dengang, men dengang kunne vi nu godt se, hvem som trives og hvem som ikke gjorde, uden statistikker og undersøgelser)... og man ville ikke behøve 100% sikkerhed for alle svarene for at kunne finde noget på ham. Retfærdigvist ser det ud til, at lige disse data (dem om drengene) ikke længere er tilgængelige i den form.

Et andet virkeligt eksempel, som det fra Massachusetts, kom for nogle år siden fra Australien. Her havde man også offentliggjort pseudonyme og "linkable" data om hospitalsindlæggelser under antagelsen om at det var anonymt. Det var det så ikke. Forskere kombinerede det f.eks. med noget som almindeligt som presseomtale af kendte personer: "person X blev den og den dag indlagt på sygehus Y efter en ulykke". Mere præcist var presseomtalen ikke, men det var rigelgit. For givet at man kunne indsnævre det med rimelige antagelser om køn og alder og andet godt, så kunne man finde rækken i datasættet om person Xs indlæggelse på sygehus Y. Og med det alle andre rækker vedr. person X. Der var tale om både sportsstjerne og politikere (jeg er ikke sikker på, at der var skuespillere med). Men kunne ikke gøre det for alle kendte, men de havde adskillige kendte, som kunne identiceres med sikkerhed.

Et andet virkeligt eksempel på afslørende "anonymiserede" datakuber var da jeg af nysgerrighed dykkede ned i danske sundhedsdata, og faldt over statistikken over provokerede aborter i en nordlig region her i landet. Den var k-anonymiseret, så alle tal under 5 var erstattet med "<5". Så jeg kunne læse flg.:

Første halvår: <5 Andet halvår: 5 Hele året: 8

Doh! Det kræver ikke en kandidatgrad at regne tallet for første halvår ud. Men vent det blev bedre:

(tal for 1. halvår) Kommune A: - Kommune B: <5 Kommune C: - Kommune D: <5 Kommune E: <5 Kommune F: -

Ja, så er det heller ikke svært at regne nu at der har været præcist en abort i kommune B, D og E i 1. halvår. Så meget for den anonymisering. Og nu ligger vejen åben for at kombinere med andre data, som i Massachusetts og Australien.

Så det på tide, at der bliver givet et forskningsbaseret og kritisk modspil til det "røgslør" som idag med løs hånd bliver kaldt for "anonymisering".

PS: Jeg havde egentlig bestemt mig for at holde en pause fra debatten efter den "professionelle modernisering" af V2. Er jeg den eneste, som oplever at forsiden f.eks. siger 6 debatindlæg, men kun viser 4, når man går ind på artiklen/blog-posten ... eller at debatoversigten, trods refresh, på nogle enheder viser debatindlæg, som er dage gamle, men på andre godt kan vise noget, som er nyere? Det er umuligt at deltage i en debat, hvor man ikke er sikker på, at man ikke kan være sikker på at læse de andre brugeres posts ... måske man skulle søge bistand hos Netcompany - jeg hører at de er gode til at vise andre brugeres post... (host!)