Det er svært at forske uden dataindsamling, for hvis vi eksempelvis vil vide noget om samfundet omkring os, må vi også vide noget om dem, der udgør samfundet.
Og selvom mange nok ville argumentere for, at dét er en bevaringsværdig praksis, er der også en gruppe privacy-fokuserede personer, som rækker en finger i vejret og råber: »Husk privatlivet.«
Det er nemlig ikke en let opgave at sikre datasubjekters privatliv, når dataansvarlige offentliggør ‘anonyme’ oplysninger om borgere, fortæller Rasmus Pagh, professor i Algorithms and Complexity ved Datalogisk Institut på Københavns Universitet (DIKU):
»Når man offentliggør analyser af data, så risikerer man faktisk at kompromittere folks privatliv, selvom statistikken ikke direkte siger noget om enkeltpersoner.«
Selvom data er anonymiseret, findes der nemlig tilfælde, hvor personer har haft held med at ‘afanonymisere’ oplysningerne igen ved at sammenholde dem med anden data. Derfor forsker Rasmus Pagh inden for området ‘differential privacy’.
»Det handler om, hvordan man kan lave forskellige former for bearbejdning af følsomme data på en måde, så man undgår at afsløre for meget om data, men samtidig tillade, at man for eksempel kan publicere resultatet af en analyse,« fortæller han.
Og selvom teknologien har sine udfordringer og stadig befinder sig i et tidligt udviklingsstadie, kan den på sigt styrke borgeres tillid til forskning og gøre dataindsamlingen lettere og mere privacy-fokuseret, uddyber han.
Inspireret af Latanya Sweeney
Et af de første eksempler på, at ‘anonyme’ data alligevel ikke var anonyme stammer fra USA og var med til at inspirere forskningsområdet ‘differential privacy’, fortæller Rasmus Pagh.
I midten af 1990’erne offentliggjorde ‘Massachusetts Group Insurance Commission’ (GIC), en statslig organisation i USA, der tilbyder sundhedsforsikring til borgere, data på offentlige medarbejdere med et formål om at hjælpe forskere.
Man havde ‘anonymiseret’ oplysningerne, som bestod af alle de registreredes hospitalsbesøg, ved at fjerne detaljer som navne, præcise adresser og personnumre. Den daværende guvernør i Massachusetts forsikrede borgere om, at deres privatliv var sikret.
Men på det amerikanske universitet Harvard begyndte Latanya Sweeney, som dengang var i færd med at opnå en kandidatgrad i datalogi, at undre sig over, hvor anonyme oplysningerne egentlig var.
Derfor anmodede hun om en kopi af data og gik i gang med et efterforskningsarbejde, der viste sig ikke at være specielt omfangsrigt. Hun vidste i forvejen, at guvernøren boede i byen Cambridge i Massachusetts, som har omkring 54.000 borgere og syv postnumre.
For 20 dollars købte hun sig adgang til en database fra byen, der blandt andet indeholdte navne, adresser, postnumre, fødselsdage og køn på alle stemmeberettigede i Cambridge – den slags data er nemlig offentlig i USA. Ved at sammenligne oplysninger i begge datasæt, fandt hun frem til guvernørens hospitalsbesøg.
»Det viste sig, at der kun var seks mennesker i den database, som havde samme fødselsdag som guvernøren. Kun tre af dem var mænd, og én boede i samme postnummer, så det betød, at hun simpelthen kunne identificere, hvem han måtte være,« fortæller Rasmus Pagh.
Latanya Sweeneys succes med at afanonymisere data er langt fra det eneste eksempel, uddyber han, og det viser, at den traditionelle løsning, hvor man ‘ad hoc’ fjerner de oplysninger, der mest åbenlyst er et problem i forhold til privacy, ikke fungerer.
»Differential privacy er en mere systematisk måde at gøre det på. Man begrænser matematisk, hvor meget privat information, man lækker,« forklarer han.
Slører ny medarbejders lønniveau
Forskningen inden for differential privacy omhandler mange forskellige typer af data, men for at forklare det på en forholdsvis simpel måde, tager Rasmus Pagh udgangspunkt i numeriske data.
»Et eksempel kunne være, at man frigiver lønbudgettet for en virksomhed eller en afdeling, og lad os sige, at man frigiver det hver måned. Forestil dig, at der begynder en ny i afdelingen i februar måned, og lønningerne i øvrigt er uændret. Hvis du så kender det præcise lønbudget for januar og februar, så vil du vide, hvor meget den nye medarbejder får i løn,« fortæller han og uddyber:
»Med differential privacy ville man ikke fortælle præcis, hvor meget man har brugt på løn i en given måned.«
I stedet kan han bruge nogle algoritmer til at finde ud af, hvor meget ‘støj’, der skal lægges til eller trækkes fra hver måned; et randomiseret tal som eksempelvis 503 kroner i januar og -722 kroner i februar. På den måde slører man, hvor meget den nye medarbejder præcist får i løn.
»Man kan selvfølgelig lægge utrolig meget støj til for ikke at afsløre noget som helst. Men så er dét, man får ud, også ret ubrugeligt. Omvendt, hvis du vil kende det helt præcise lønbudget, så bliver det ikke privat,« forklarer forskeren.
»Det, man bruger matematikken til, er at finde en balance mellem datakvalitet og privacy. Det er en matematisk veldefineret begrænsning for, hvor meget du kommer til at vide.«
Måske ved man allerede, at det både er usandsynligt, at den nye medarbejder tjener over 200.000 kroner om måneden, og at hun tjener under 10.000 kroner om måneden. Men man har måske en formodning om, at hun tjener – lad os sige – maksimalt 50.000 kroner hver måned. Differential privacy giver nogle garantier for at bevare en vis usikkerhed omkring hendes faktiske lønniveau.
»Man har ofte noget viden om data i forvejen, men hvor meget mere sikker bliver du så på din formodning? Hvor meget mere ved du efter at have set data? Differential privacy kan give garantier for, at man ikke øger sin viden med mere, end hvad der er nødvendigt,« fortæller han og uddyber:
»Lad os sige, at man først formoder, at der er 10 procent sandsynlighed for, at hun tjener mere end 50.000. Differential privacy begrænser, hvor meget den sandsynlighed stiger. Det kan godt være, at den bliver lidt større eller mindre, men den bliver mellem for eksempel 9 og 11 procent.«
Datakvaliteten falder
Selvom differential privacy kan give nogle garantier for, hvor tæt ens formodning om data kommer på sandheden, har teknologien sine begrænsninger, erkender Rasmus Pagh:
»Vi ved, at der er nogle ting, som simpelthen ikke kan lade sig gøre. Eksempelvis, hvis man bliver ved og ved med at publicere nye analyser af de samme data, så bliver det til sidst umuligt at skjule informationerne.«
Hvis en virksomhed eksempelvis frigiver lønbudgettet for en meget lille afdeling, hvor der kun sidder én person, med differential privacy, og det sker måned efter måned, kan man på et tidspunkt regne et gennemsnit ud, som er meget tæt på det faktiske lønniveau.
Det er heller ikke til at undgå, at teknologien går ud over datas kvalitet. I USA har US Census Bureau, der svarer til Danmarks Statistik, for nyligt udgivet den store 2020 census, hvor man har brugt differential privacy. Ifølge Rasmus Pagh har den beslutning mødt kritik, fordi der kommer støj ind i data.
»Konkret kan det betyde, at der er små bysamfund, der er forsvundet, hvor det pludselig ser ud som om, der ikke bor nogen. Eller det ser ud som om, at der er tomt i bestemte bygninger, selvom det i virkeligheden ikke passer. Det er en konsekvens af, at man lægger støj til; at man får nogle ændringer på den information, man offentliggør.«
Privacy fører til tillidsfulde datasubjekter
Når datakvalitet falder, er der ting, man ikke kan bruge oplysningerne til længere. Det bliver eksempelvis sværere at forske i samfundsforhold, forklarer han:
»Men US Census Bureau siger, at det står i forfatningen i USA, at de er nødt til at gøre det, der er nødvendigt for at beskytte borgere. Det er sådan, man får folk til at fortælle sandheden,« understreger forskeren.
»I USA er det folk selv, der melder data ind. Det er ikke automatisk registreret af myndighederne, men man udfylder spørgeskemaer, og hvis man skal få folk til at svare sandfærdigt, så er det vigtigt, at det ikke kan have konsekvenser for de borgere, der svarer.«
Så man er nødt til at have noget privacy for overhovedet at kunne indsamle data?
»Ja præcis. For at have tillid til, at man holder data fortroligt, så er man nødt til at have metoder til at sikre privacy.«
Det er her, differential privacy kommer på banen. Men det teknologiske område er stadig meget ungt, og derfor er ikke helt enkelt for ‘almindelige’ danske virksomheder at tage teknologien i brug, ifølge Rasmus Pagh.
Lige nu er det primært store amerikanske tech-giganter som Google, Facebook og LinkedIn, der investerer i området, fordi de ser det som en måde at bevare folks tillid til, at deres privatliv bliver respekteret, uddyber han.
Men området udvikler sig hurtigt, og derfor bør dataansvarlige virksomheder holde øje med det, for lige pludselig dukker der måske et værktøj op, som kan udbrede differential privacy og den databeskyttelse, som følger med.
I øjeblikket bruger Rasmus Pagh studenterprojekter som en måde at arbejde med differential privacy i det danske samfund. Lige nu kører han et projekt inden for det offentlige og håber på flere projekter i fremtiden, hvor han kan prøve teknologien af 'i virkeligheden'.
Oplev Rasmus Pagh fortælle mere om differential privacy på årets V2 Security-konference til maj.
Version2 byder endnu engang it-ansvarlige og -specialister velkommen til to spændende dage i København med 100 seminarer og mere end 3.000 deltagere, der mødes for at blive opdateret på den nyeste viden om it-sikkerhed, cloudløsninger og compliance.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.