Studie: Anonymisering gør dig ikke anonym

24. juli 2019 kl. 12:0516
Studie: Anonymisering gør dig ikke anonym
Illustration: Pang-rum/Bigstock.
Et studie publiceret i Nature Communications viser, at man med meget få informationer kan identificere personer i data, der ellers beskrives som anonymiserede.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Hvor mange informationer skal der til at identificere en person i et anonymiseret datasæt? Ikke så mange som man kunne tro, viser et nyt studie, som er publiceret i Nature Communications.

Det skriver Technology Review.

Mange forskere og virksomheder bruger anonymisering til at dele datasæt uden at komme i en GDPR-klemme. Anonymiseringen består ofte i at fjerne navne, CPR-nummer og andre informationer der direkte kan identificere en person.

En af udfordringerne ved anonymiserede data er, at hvis man søger i en anonymiseret database efter en person, som matcher informationer om en person man kender, og finder ud af, at der kun er ét resultat i befolkningen, kan man med sikkerhed sige, at man har fundet personen.

Artiklen fortsætter efter annoncen

Det forsøger virksomheder og forskere ofte at komme uden om ved at sample dataene, hvilket vil sige, at de kun offentliggør eller deler et udsnit af databasen. På den måde er det sværere at sige, at en søgning med ét resultat, er en bestemt person, da der kan være flere personer med samme parametre i den ikke-tilgængelige del af databasen.

Kan identficere personer ud fra få attributter

Men den nye forskning viser, at selv med et lille udsnit af en befolkning i databasen, kan man med stor sikkerhed identificere personer ud fra relativt få attributter. Som eksempel giver forskerne, at man med 15 attributter kan identificere 99,98 procent af personer fra staten Massachusetts.

Men selv med langt færre informationer kan man opnå en relativt høj præcision. Forskerne bag studiet har udviklet en test, hvor man kan undersøge hvor identificerbar en person i England eller USA er, ud fra forskellige parametre.

Ifølge forskerne kan man i gennemsnit identificere en amerikaner med 83 procents sikkerhed ud fra blot tre parametre: Fødselsdato, post-nr. og køn.

»Vores resultater tyder på, at selv små udsnit af anonymiserede datasæt sandsynligvis ikke opfylder de moderne standarder for anonymisering, som er fremsat af GDPR, og udfordrer alvorligt den tekniske og lovmæssige tilstrækkelighed ved udgiv-og-glem anonymiserings-modellen,« skriver forskerne i deres abstract.

16 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
16
27. juli 2019 kl. 21:10

Jeg håber det er ironisk

Ja. Jeg troede egentligt at jeg havde skamredet den kæphest nok til at alle var blevet grundigt trætte af mig.

Men så giver jeg den et par omgange mere ... :-)

15
26. juli 2019 kl. 11:10

Jeg er chokeret! Tænk sig at man reelt ikke er anonym efter almindelige forsøg på anonymisering. Chokeret, siger jeg jer...</p>
<p>Hvorfor er der ingen, som har advaret imod det før nu?

Jeg håber det er ironisk, flere både her og i andre it relaterede tidsskrifter har påpeget det i lang tid nu og dem som indsamler data kommercielt har endda reklameret med det.

13
25. juli 2019 kl. 10:27

Det er sgu da naivt at tro, at man anonymisere (sundheds)data og ikke finde personen:

Et forenklet eksempel for at illustrere problemstillingen :

Mand, 52 år, diabetiker, indlagt x gange ->

Total datasæt : 6 mio, heraf 3 mio mænd. Deldatasæt : 3 mio records

52 år -> 11.000 records

Diabetiker -> 257 records

Indlagt x gange -> 1 record

12
25. juli 2019 kl. 10:04

Det handler også om anonymiseringsmetoder.

Bestemt. Og dette er nok i den ringe ende af de efter min mening helt utilstrækkelige metoder, som stort set bruges over alt.

k-anonymity med en bucket size på 5, virker til at være toppen af anonymisering i Danmark (jeg har set anvendt i offentligt tilgængelige 'portaler' ifm. Trivselsundersøgelsen og sundhedsvæsenet, og har personligt hørt kommunale topembedsmænd omtale det som 'fuld anonymisering'). Det er helt utilstrækkeligt, selv inden man laver de mange fodfejl, som f.eks. at bevare funktionelle sammenhænge med fuld præcision, eller - som jeg også har set - bruger k=2 (det er altså at holde os for nar!)

Der står jo at differential privacy er en go løsning ...

Er du bekendt med reelle eksempler på, at det er blevet brugt i praksis, endsige at man har gjort sig overvejelser om 'privacy budget' og 'slid' på de anonymiserede data? Jeg har stadig til gode at se bare et eksempel.

Tværtimod virker det til, at grundholdningen er, at når data først er 'anonymiseret', så kan de kastes i grams og sammenstilles og analyseres til døde (til dem, som ikke kender differential privacy, så er det en grundlæggende observation, at jo mere man bruger 'anonyme' data, jo mindre anonymitet bliver der tilbage - og vil man bruge data meget, så stiller det derfor endnu større krav til graden af anonymisering i første omgang).

Desuden er intet 100% sikkert. Heller ikke at gå over gaden, så vi må acceptere en vis risiko.

Enig i at 100% ikke er en reel mulighed, men betyder det så at vi bare helt skal give op? Vi har nogle hundrede dræbte i trafikken om året, og det er meget langt fra de 100%, og alligevel arbejdes der hårdt på at få det bragt ned.

99.98% ville være helt uacceptable odds, hvis man skulle over gaden, og det ville de 83%, som nævnes i artiklen også være. Vi har hørt en minister kaste 'den et-benede fra Samsø' under bussen (og gid at vi var bare i nærheden af det sikkerhedsniveau i praksis), men er det netop ikke de udsatte og de anderledes, som vi skal passe særligt meget på?

Hvor ligger din grænse for, hvor mange ud af, lad os sige 100.000 i et enkelt datasæt om følsomme forhold, som det vil være acceptabelt at der er en reel mulighed for at kunne genkende? 1, 10 eller 100? Eller er det OK med tusinder, bare det ikke er alle og med fuld garanti? Og ja, lad os bare bruge gummi-formuleringen om 'med rimelige midler', så vi afgrænser os fra NSA og andre.

PS:

det er Secure Multiparty Computation, som vi er gode til i DK

Du bør vide, at der pt. kun findes få, og meget specielle anvendelser for Secure Multiparty Computations. Det kunne godt se ud til, at du har fundet sådant et eksempel. Som generel løsning ligger det mange år ude i fremtiden, hvis det endda overhovedet er muligt, at generalisere bare i nogen rimelig grad.

11
25. juli 2019 kl. 07:57

PS:

Det er selvfølgelig den mulighed, at tallene ser anderledes ud uden for USA - det kan jeg ikke gennemskue, og jeg håber, at nogen med forstand på den slags vil lægge nogle betragtninger om det ud. Passer forskningen uden for USA? Hvis ikke - er risikoen så større eller mindre udenfor USA?

Abstract nævnt i min kommentar ovenfor er herfra:https://www.nature.com/articles/s41467-019-10933-3

10
25. juli 2019 kl. 07:52

Pernille Tranberg:

Desuden er intet 100% sikkert. Heller ikke at gå over gaden, så vi må acceptere en vis risiko.

Hvem er "Vi"? Og i hvilke situationer/med hvilke formål - for det er vel ikke ligegyldigt?

Denne forskning viser med al tydelighed, at det - med undtagelser på ganske få områder - bør være borgeren selv, der beslutter, hvilke farlige "gader" han/hun ønsker at gå over. Og at det skal ske på et oplyst, åbent, ærligt grundlag om, at risikoen for redidentificering faktisk ser ud til at være meget stor - det skal ikke ske på grundlag af spin om, at data skam er "anonymiserede", og at vi er nødt til at acceptere en vis risiko. Det må og skal præciseres overfor borgeren, hvilke risici og til hvilke formål, ellers er det vildledning og manipulation, hvilket i mine øjne burde anses som en forbrydelse.

Fra Abstract":"Using our model, we find that 99.98% of Americans would be correctly re-identified in any dataset using 15 demographic attributes. Our results suggest that even heavily sampled anonymized datasets are unlikely to satisfy the modern standards for anonymization set forth by GDPR and seriously challenge the technical and legal adequacy of the de-identification release-and-forget model."

Som jeg læser dette, så bør denne konklusion vel også gælde de metoder, du nævner? Eller læser jeg den forkert?

8
25. juli 2019 kl. 07:22

Det handler også om anonymiseringsmetoder. Der står jo at differential privacy er en go løsning og det er Secure Multiparty Computation, som vi er gode til i DK (http://partisia.com/) også. Desuden er intet 100% sikkert. Heller ikke at gå over gaden, så vi må acceptere en vis risiko.

5
24. juli 2019 kl. 14:12

Jeg er chokeret! Tænk sig at man reelt ikke er anonym efter almindelige forsøg på anonymisering. Chokeret, siger jeg jer...

Hvorfor er der ingen, som har advaret imod det før nu?

4
24. juli 2019 kl. 13:41

Hvor der direkte står, som jeg forstår reglerne. At anonymiseret data, skal betraktes og behandles som personfølsom data. Da en rigtigt Anonymiseret ikke er teknisk eller matematisk muligt på nogle måder.

3
24. juli 2019 kl. 13:08

Så er data jo bare ikke anonymiserede.

Jeg skal hilse og sige, at det er ikke noget man bliver populær af at sige alle steder.....

// Jesper

2
24. juli 2019 kl. 12:39

... vel fremover blive fri for de evindelige utroværdige løfter om "anonyme" data, når myndigheder, firmaer og forskere bliver alt for nærgående i deres uhæmmede indsamling af vore privatliv - uden vores vidende og samtykke....?

1
24. juli 2019 kl. 12:20

Det har været fremme før, at man ud fra "anonymiserede" data kan finde frem til personerne bag den...