Studie: Anonymisering gør dig ikke anonym

Illustration: Pang-rum/Bigstock
Et studie publiceret i Nature Communications viser, at man med meget få informationer kan identificere personer i data, der ellers beskrives som anonymiserede.

Hvor mange informationer skal der til at identificere en person i et anonymiseret datasæt? Ikke så mange som man kunne tro, viser et nyt studie, som er publiceret i Nature Communications.

Det skriver Technology Review.

Mange forskere og virksomheder bruger anonymisering til at dele datasæt uden at komme i en GDPR-klemme. Anonymiseringen består ofte i at fjerne navne, CPR-nummer og andre informationer der direkte kan identificere en person.

En af udfordringerne ved anonymiserede data er, at hvis man søger i en anonymiseret database efter en person, som matcher informationer om en person man kender, og finder ud af, at der kun er ét resultat i befolkningen, kan man med sikkerhed sige, at man har fundet personen.

Læs også: Keynote på Infosecurity: Anonymisering af masseindsamlede lokationsdata er en narresut

Det forsøger virksomheder og forskere ofte at komme uden om ved at sample dataene, hvilket vil sige, at de kun offentliggør eller deler et udsnit af databasen. På den måde er det sværere at sige, at en søgning med ét resultat, er en bestemt person, da der kan være flere personer med samme parametre i den ikke-tilgængelige del af databasen.

Kan identficere personer ud fra få attributter

Men den nye forskning viser, at selv med et lille udsnit af en befolkning i databasen, kan man med stor sikkerhed identificere personer ud fra relativt få attributter. Som eksempel giver forskerne, at man med 15 attributter kan identificere 99,98 procent af personer fra staten Massachusetts.

Men selv med langt færre informationer kan man opnå en relativt høj præcision. Forskerne bag studiet har udviklet en test, hvor man kan undersøge hvor identificerbar en person i England eller USA er, ud fra forskellige parametre.

Ifølge forskerne kan man i gennemsnit identificere en amerikaner med 83 procents sikkerhed ud fra blot tre parametre: Fødselsdato, post-nr. og køn.

»Vores resultater tyder på, at selv små udsnit af anonymiserede datasæt sandsynligvis ikke opfylder de moderne standarder for anonymisering, som er fremsat af GDPR, og udfordrer alvorligt den tekniske og lovmæssige tilstrækkelighed ved udgiv-og-glem anonymiserings-modellen,« skriver forskerne i deres abstract.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (16)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Anne-Marie Krogsbøll

Pernille Tranberg:

Desuden er intet 100% sikkert. Heller ikke at gå over gaden, så vi må acceptere en vis risiko.


Hvem er "Vi"? Og i hvilke situationer/med hvilke formål - for det er vel ikke ligegyldigt?

Denne forskning viser med al tydelighed, at det - med undtagelser på ganske få områder - bør være borgeren selv, der beslutter, hvilke farlige "gader" han/hun ønsker at gå over. Og at det skal ske på et oplyst, åbent, ærligt grundlag om, at risikoen for redidentificering faktisk ser ud til at være meget stor - det skal ikke ske på grundlag af spin om, at data skam er "anonymiserede", og at vi er nødt til at acceptere en vis risiko. Det må og skal præciseres overfor borgeren, hvilke risici og til hvilke formål, ellers er det vildledning og manipulation, hvilket i mine øjne burde anses som en forbrydelse.

Fra Abstract":
"Using our model, we find that 99.98% of Americans would be correctly re-identified in any dataset using 15 demographic attributes. Our results suggest that even heavily sampled anonymized datasets are unlikely to satisfy the modern standards for anonymization set forth by GDPR and seriously challenge the technical and legal adequacy of the de-identification release-and-forget model."

Som jeg læser dette, så bør denne konklusion vel også gælde de metoder, du nævner? Eller læser jeg den forkert?

  • 4
  • 1
Anne-Marie Krogsbøll

PS:

Det er selvfølgelig den mulighed, at tallene ser anderledes ud uden for USA - det kan jeg ikke gennemskue, og jeg håber, at nogen med forstand på den slags vil lægge nogle betragtninger om det ud. Passer forskningen uden for USA? Hvis ikke - er risikoen så større eller mindre udenfor USA?

Abstract nævnt i min kommentar ovenfor er herfra:
https://www.nature.com/articles/s41467-019-10933-3

  • 1
  • 0
Bjarne Nielsen

Det handler også om anonymiseringsmetoder.

Bestemt. Og dette er nok i den ringe ende af de efter min mening helt utilstrækkelige metoder, som stort set bruges over alt.

k-anonymity med en bucket size på 5, virker til at være toppen af anonymisering i Danmark (jeg har set anvendt i offentligt tilgængelige 'portaler' ifm. Trivselsundersøgelsen og sundhedsvæsenet, og har personligt hørt kommunale topembedsmænd omtale det som 'fuld anonymisering'). Det er helt utilstrækkeligt, selv inden man laver de mange fodfejl, som f.eks. at bevare funktionelle sammenhænge med fuld præcision, eller - som jeg også har set - bruger k=2 (det er altså at holde os for nar!)

Der står jo at differential privacy er en go løsning ...

Er du bekendt med reelle eksempler på, at det er blevet brugt i praksis, endsige at man har gjort sig overvejelser om 'privacy budget' og 'slid' på de anonymiserede data? Jeg har stadig til gode at se bare et eksempel.

Tværtimod virker det til, at grundholdningen er, at når data først er 'anonymiseret', så kan de kastes i grams og sammenstilles og analyseres til døde (til dem, som ikke kender differential privacy, så er det en grundlæggende observation, at jo mere man bruger 'anonyme' data, jo mindre anonymitet bliver der tilbage - og vil man bruge data meget, så stiller det derfor endnu større krav til graden af anonymisering i første omgang).

Desuden er intet 100% sikkert. Heller ikke at gå over gaden, så vi må acceptere en vis risiko.

Enig i at 100% ikke er en reel mulighed, men betyder det så at vi bare helt skal give op? Vi har nogle hundrede dræbte i trafikken om året, og det er meget langt fra de 100%, og alligevel arbejdes der hårdt på at få det bragt ned.

99.98% ville være helt uacceptable odds, hvis man skulle over gaden, og det ville de 83%, som nævnes i artiklen også være. Vi har hørt en minister kaste 'den et-benede fra Samsø' under bussen (og gid at vi var bare i nærheden af det sikkerhedsniveau i praksis), men er det netop ikke de udsatte og de anderledes, som vi skal passe særligt meget på?

Hvor ligger din grænse for, hvor mange ud af, lad os sige 100.000 i et enkelt datasæt om følsomme forhold, som det vil være acceptabelt at der er en reel mulighed for at kunne genkende? 1, 10 eller 100? Eller er det OK med tusinder, bare det ikke er alle og med fuld garanti? Og ja, lad os bare bruge gummi-formuleringen om 'med rimelige midler', så vi afgrænser os fra NSA og andre.

PS:

det er Secure Multiparty Computation, som vi er gode til i DK

Du bør vide, at der pt. kun findes få, og meget specielle anvendelser for Secure Multiparty Computations. Det kunne godt se ud til, at du har fundet sådant et eksempel. Som generel løsning ligger det mange år ude i fremtiden, hvis det endda overhovedet er muligt, at generalisere bare i nogen rimelig grad.

  • 6
  • 0
Heino Svendsen

Det er sgu da naivt at tro, at man anonymisere (sundheds)data og ikke finde personen:

Et forenklet eksempel for at illustrere problemstillingen :

Mand, 52 år, diabetiker, indlagt x gange ->

Total datasæt : 6 mio, heraf 3 mio mænd.
Deldatasæt : 3 mio records

52 år -> 11.000 records

Diabetiker -> 257 records

Indlagt x gange -> 1 record

  • 6
  • 0
Maciej Szeliga

Jeg er chokeret! Tænk sig at man reelt ikke er anonym efter almindelige forsøg på anonymisering. Chokeret, siger jeg jer...

Hvorfor er der ingen, som har advaret imod det før nu?

Jeg håber det er ironisk, flere både her og i andre it relaterede tidsskrifter har påpeget det i lang tid nu og dem som indsamler data kommercielt har endda reklameret med det.

  • 1
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize