Forskere advarer: Det er alt for let at identificere personer i anonymiserede data

30. januar 2015 kl. 15:15
De nuværende regler i EU og USA hindrer ikke, at sparsom ekstra information, som let kan anskaffes, gør det muligt at identificere personer i anonymiserede data.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

De store datamængder, der indsamles fra mobiltelefoner og kreditkort, kan i anonymiseret form giver forskere viden om menneskers adfærd, som kan være til gavn for byplanlæggere, trafikforskere mv.

De nuværende regler, der findes i både EU og USA for at anonymisere data, giver dog stik mod hensigten ingen garanti for, at man ikke med en meget begrænset ekstra viden kan identificere hver enkelt person i databasen.

Det skriver Yves-Alexandre de Montjoye fra Media Lab ved Massachusetts Institute of Technology i USA i en artikel i Science.

Sammen med bl.a. Laura Radaelli, der under forskningsprojektet var ph.d.-studerende ved Aarhus Universitet, men som i dag er postdoc i Israel, har han fået stillet en database med kreditkorttransaktioner for 1,1 millioner personer i 10.000 butikker gennem tre måneder til rådighed fra en bank i et OECD-land.

Artiklen fortsætter efter annoncen

Banken har betinget sig anonymitet, så nærmere ønsker forskerne ikke redegøre for deres database.

Hver person er givet et anonymiseret brugernavn, og hver transaktion er beskrevet ved dette brugernavn, datoen og værdien for transaktionen.

Med det store antal brugere og de mange transaktioner skulle man tro, at det ville være fuldstændigt umuligt at identificere de enkelte personer.

Det er det ikke, viser analysen.

Hvis man har kendskab til tidspunkter for besøg i fire butikker, kan man identificere 90 pct. af alle personer i databasen. Som et lille kuriosum kan det nævnes, at det er 1,2 gange lettere at identificere kvinder end mænd, ligesom det er lettere at identificere personer med høj indkomst end personer med lav indkomst.

En kvittering, et instagramfoto og et tweet er alt der behøves

Det kræver således ikke megen overvågning af en enkelt person for, at man kan udtrække alle oplysninger om vedkommende, hvis man har kendskab til databasen. Har man yderligere information om prisniveauet for handlen, f.eks. prisen på en cappuccino på en cafe, behøver man kun tre oplysninger.

I en pressemeddelelse forklarer forskerne det på med denne måde

Hvis du har en kvittering, et instagramfoto og et tweet om køb af en ny telefon, så har du en chance på 94 pct. for at identificere personen i databasen, som ikke indeholder navn, adresse, kreditkortnummer og andre helt personlige informationer.

Det hjælper ikke meget, hvis man gør oplysninger om tidspunktet for transaktionen mere upræcis ved at gå fra dagsangivelse til ugeangivelse eller ved, at kendskabet til butikken indskrænker sig til, at den er en ud af 150 butikker i samme shoppingcenter.

Selv i denne situation vil mere end 70 pct. af personerne kunne identificeres med fire ekstraoplysninger, der inkluderer et kendskab til prisen med en usikkerhed på 50 pct.

Kreditkortdata er ikke de eneste usikre data, når det drejer sig om hensyn til privatlivets fred.

Yves-Alexandre de Montjoye har tidligere vist, hvordan det er muligt at identificere 95 pct. af brugere i en database for halvanden million personer, hvis man har kendskab til tid og sted for fire samtaler.

Utilstrækkelige regler

Til trods for disse problemer mener de Montjoye ikke, at man skal afholde sig fra at bruge Big Data.

»Man bør dog være opmærksom på risikoen for identifikation og tage hensyn hertil,« udtaler han i pressemeddelelsen.

I den videnskabelige artikel i Science, hvor forskerne specifikt gør opmærksom på, at de gældende regler i både USA og EU ikke er tilstrækkelige, konkluderer de på denne vis:

»Det er helt afgørende for at realisere det store potentiale i metadata, at der bliver fundet den rette balance mellem hensyn til privatlivets fred og nytten af disse data.«

Ingen kommentarer endnu.  Start debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger