Myndigheder blåstempler TDC’s salg af lokationsdata om turisters færden

8. maj 2018 kl. 05:1133
Myndigheder blåstempler TDC’s salg af lokationsdata om turisters færden
Illustration: Frankix/Bigstock.
Teleselskabet må gerne følge danske og udenlandske turisters færden via lokationsdata fra mobilsignaler. Sådan lyder det fra Erhvervsstyrelsen, der har undersøgt sagen.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Det er inden for rammerne af lovgivningen, når TDC videresælger lokationsdata til den østjyske turistorganisation VisitAarhus om turisternes bevægelsesmønstre rundt mellem de østjyske turistorganisationer som eksempelvis Moesgaard eller Aros.

Sådan lyder det i en ny vurdering fra Erhvervsstyrelsen, som Version2 har fået aktindsigt i.

»På baggrund af det af TDC oplyste om selskabets anonymiseringsmetode i det konkrete tilfælde, er det herefter Erhvervsstyrelsens vurdering, at den af TDC beskrevne metoder til anonymisering sikrer, at den trafik- og lokaliseringsdata fra TDC’s mobil-netværk, der anvendes til brug for 'Visit Aarhus Pilot'-projektet er anonymiseret, således at en efterfølgende identifikation af en fysisk bruger ikke er mulig, uanset hvor brugeren er bosiddende,« skriver Erhvervsstyrelsen i sin vurdering af sagen.

Erhvervsstyrelsen valgte på eget initiativ at tage sagen op, efter Version2 havde omtalt TDC's pilotprojekt med VisitAarhus tilbage i januar.

Artiklen fortsætter efter annoncen

Det afgørende punkt i sagen er, om TDC reelt anonymiserer de lokationsdata, de videregiver til turistorganisationen.

Hvis ikke, vil der være tale om et brud på udbudsbekendtgørelsen, der definerer, hvordan teleselskaber må anvende de data, de opsamler på deres master.

TDC forklarer til Erhvervsstyrelsen i en trin-for-trin-forklaring af metoden og processen, at de sikrer anonymisering over seks trin.

Kan teoretisk lede til kun én bruger

TDC oplyser, at deres databehandlingsmetode anonymiserer trafik- og lokationdata umiddelbart efter opsamling, og det er tale om reel anonymisering og ikke pseudononymisering, da data ikke kan gøres personhenførbare ved at konstruere en rainbow-tabel.

Artiklen fortsætter efter annoncen

Det er ikke kun udenlandske turisters adfærd, der bliver analyseret og solgt til turistorganisationer som VisitAarhus.

Ifølge TDC kan statistikken om bevægelsesmønstre kombineres med data om danske turisters opholdskommune og husstandsprofil. Opholdskommunen identificeres ud fra, hvilke master enheden har sin primære tilknytning til, mens data om husstandsprofilen hentes fra Danmarks Statistik.

Hvis der er mindre end fem mobiltelefoner på et givent tidspunkt og område, bliver der ikke indsamlet data.

TDC erkender, at der, når man følger bevægelsesmønstre over en periode, potentielt vil opstå en mulighed for, at det kun kan være én person med netop dette unikke bevægelsesmønster.

Artiklen fortsætter efter annoncen

»Hvis man kigger på en længere kæde af observationspunkter, fpr eksempel: 'Startede i område A, passerede område B, passerede område C kl. x:00 sluttede i område Z y:00' eller 'startede i område A og slutter i område B i samme tidsrum i 14 dage', vil det teoretisk kunne lede frem til, at kun én anonymiseret IMSI/IMEI/MISDN har denne adfærd,« skriver TDC i sit svar til Erhvervsstyrelsen.

Det er dog ikke ensbetydende med, at man dermed kan udpege, hvilken person der er tale om, lyder det fra TDC.

»Men da man ikke af andre datakilder, msn med rimelighed kan bringe i anvendelse, kan udlede samme adfærd, vil man alene kunne konkludere, at en anonymiseret bruger har haft denne adfærd. Ifølge TDC er identifikation af en bestemt fysisk person ved brug af 'Single Out' ikke en mulighed,« skriver TDC til Erhvervsstyrelsen.

Lektor: Tror ikke at storskala-datasæt er anonyme

Senest har lektor Yves-Alexandre de Montjoye fra Imperial Collega i London sat spørgsmålstegn ved, om masseindsamlet lokationsdata reelt er anonymiseret.

»Vi har allerede set så mange eksempler på datasæt, der er blevet solgt og re-identificeret, at vi ikke rigtig tror på de storskala-datasæt, der hævder at være anonyme – eller i det mindste mener vi, at der skal ses meget nøje på dem,« har Yves-Alexandre de Montjoye sagt til TechCrunch.

33 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
33
10. maj 2018 kl. 14:10

Det store ubesvarede spørgsmål er hvordan TDC på den ene side er i stand til at sammenkæde lokaliseringsoplysninger om en abonnent over mindst 14 dage ... men samtidig ikke er i stand til at udpege en konkret person i dette datasæt ud fra et IMSI-nummer

I betragtning af, hvor kreative TDC ellers har været med at sammenkæde data, så forekommer de mig ret fantasiløse, når det kommer til, hvad man med rimelighed kan bringe i anvendelse af andre datakilder, og hvad man ellers kan udlede af de data, som man har.

Selv hvis vi antager at IMSI, IMEI og andre "numre" er irreversibelt forvansket til et "håndsæt/SIM-kort"-løbenummer, så det som TDC har er en lang række af oplysninger om sted og tid per løbenummer. Og det bruger de efter eget udsagn allerede til at udlede, hvor folk bor og hvor de opholder sig.

"Sted" er selvfølgelig et relativt groft mål - vi ved at der sker "mastespring", så man skal regne en vis usikkerhed ind i sine analyser. Men vi må antage, at det er præcist nok til at kunne sortere Legoland fra Billund Lufthavn. TDC selv siger godt nok "kommune", men det har nok mere at gøre med at DS ikke leverer deres oplysninger med bedre præcision; TDCs "anonyme" data er ganske givet meget mere præcise.

Og det er faktisk langt rigeligt til at man kan begynde at skelne. Lad mig citere fra Weekendavisens (WA#17) artikel "Må vi få deres fingeraftryk?":

Forskerne i Copenhagen Network Study undersøgte også, hvor svært det er at beskytte brugernes identitet. De forenklede deres data, så de ikke længere havde oplysninger om, præcis hvor forsøgspersonerne befandt sig, men blot om de hjemme eller ude.</p>
<p>"Vores rytme og måde at gøre tingene på er stadig så unik, at i vores lille datasæt var det 10-20 datapunkter, man skulle bruge for unikt at identificere folk. Så selv hvis man forsøger at fjerne al information om præcise steder, er der altså noget, der handler om rytmerne" ...

Hvis man ved, hvor folk bor (sådan cirka) og hvor de arbejder (for det er et andet sted, hvor de tit opholder sig på hverdage og dagstimerne), så skal der ikke megen ekstra viden til, før man kan identificere dem, f.eks. via et Facebook opslag om en tur med familien til Legoland. Eller også isolerer man dem på deres rytme, før man identificerer dem vha. åbne kilder.

Det er ikke urimeligt at man har viden om, at folk er på - for dem - usædvanlige steder på bestemte tidspunkter. Man kunne f.eks. hedde Lars og bo omkring Nyhavn og arbejde på Christiansborg, og have været i sommerhus i Skagen og til firmafest hos en fisker. Dem er der vist ikke så mange af i Danmark.

Hvis man i øvrigt kender folk, som er denne viden langt mere righoldig end det, som vi nu alle ved om "Lars". Og har man først fået sat fingeren på det "anonyme løbenummer", så er der utrolig detaljeret viden om personen i TDCs data.

IMSI/IMEI o.lign. er ligegyldig, det "anonyme id er nok*. For hvem her kender deres eget IMSI eller IMEI nummer, endsige andres?

Og det stopper såmænd ikke her. For man kan ikke bare se, hvor en person har været, men man kan også se, hvem der i øvrigt har opholdt sig der. Og hvis lokationsoplysningerne overlapper over tid og rum, så har de rejst sammen.

Derfor behøver det ikke være nødvendigt at kunne genkende en given person, hvis man kan genkende personens nære venner eller måske endda samlever. Og TDC kan ud fra deres data se, om det er samleveren eller en anden, som vi tager med til lufthavnen eller overnatter i et fremmed område med. Og de kan se, om denne anden går igen over tid.

Lad mig citere lidt mere fra ovenstående artikel fra WA:

"Vores sociale liv er forudsigeligt i nogenlunde samme grad som vores geo-spatiale rum. Vi har en tendes til at mødes med de samme mennesker de samme steder"

En sammenhæng tonede frem: Når de studerende var mest uforudsigelige i deres bevægelsesmønstre, var de til gengæld meget forudsigelige socialt set. Det var typiske de samme mennesker, de tog i byen med hver weekend.

Forskerne har blandt andet lavet algoritmer, der ud fra wifi-adgangspunkter kan forudsige, om to studerende er venner i virkeligheden, (...). De bygger på oplysninger om to telefoner ankommer til nye steder samtidig, og om de flytter sig sammen.

Eller mao., selv ud fra "anonyme" lokationsdata kan man tegne sociale grafer.

Vores lokationsdata er langt mere afslørende end metadata om hvem vi kommunikerer med.

PS: Og så vil jeg godt trække i land igen: Muligheden for genfinde telefonnummer, IMSI og/eller IMEI er stadig yderst relevant. For dels er der så for TDC lige løb hen til identiteten, dels er kombinationen af kommunikations- og bevægelsesmønstre i kombination langt mere afslørende end de to betragtet hver for sig. TDC skal til at passe på, og vi skal til at passe på TDC.

31
9. maj 2018 kl. 17:30

Inden man kaster sig ud i en sag, ville det være rart at få klarhed over hvordan TDC er i stand til at sammenknytte anonymiserede poster i et samlet spor af et objekts bevægelse gennem længere tid.

Meget enig. Det indgår også i strategien. Dette offentliggjorte brev fra ERST til TDC har lidt mere information, men det centrale afsnit om anonymiseringsmetoden er slettet.

Men følgende må anses for bekræftet information:

 1. TDC er i stand til at sammenkæde lokaliseringsdata på individ-niveau, eftersom TDC anerkender at en abonnent med et bestemt adfærdsmønster kan være unik i datasættet. TDC medtager kun lokaliseringsdata for en abonnent, hvis der er mindst 5 abonnenter på cellen, men dette forhindrer ikke et en person er unik når flere celler (master) sammenkædes.
 2. Abonnenten trackes over mindst 14 dage i TDC's LBS-system (Location Based Services). Muligvis tre måneder, som er slettefristen for datasættet.
 3. TDC konkluderer på grundlag af egne evalueringer (som ikke synes at være efterprøvet af en uafhængig part), at der ikke kan trækkes data ud af LBS-systemet som alene identificerer en bestemt fysisk person, og at oplysninger fra LBS-systemet ikke kan samkøres med CDR-data eller NAT-loggen.

Det er hvad vi ved. Resten er mere spekulativt.

Det store ubesvarede spørgsmål er hvordan TDC på den ene side er i stand til at sammenkæde lokaliseringsoplysninger om en abonnent over mindst 14 dage, hvilket efter gængs forståelse for "big data" vil forudsætte en eller anden persistent identifikator som et IMSI-nummer (eller anden genkendelse af abonnenten) kan omsættes til, men samtidig ikke er i stand til at udpege en konkret person i dette datasæt ud fra et IMSI-nummer, hvis TDC ønsker dette (eller tvinges til det med en dommerkendelse).

Det er lidt uklart, om ERST reelt har overvejet dette, eller om ERST har stillet sig tilfreds med at andre end TDC, f.eks. hackere som fik adgang til dette datasæt med lokaliseringsoplysninger og på samme tid CDR-oplysningerne, ikke vil være i stand til at udpege en specifik person? Pseudonymisering vil opfylde det sidste krav, men stadig efterlade muligheden for at TDC kan identificere en person.

Dertil kommer så risikoen for re-identifikation i lokaliseringsdata på individniveau, når adfærden bliver unik. Den risiko er antageligt meget stor, dog afhængig af hvor ofte TDC registrerer lokaliseringsdata, i hvor lang tid abonnenterne trackes via sammenkædning på individniveau, og om celler sammenlægges til større geografiske områder. Der er ingen oplysninger om dette eller forsøg på at kvantificere risikoen (fx andelen af abonnenter som er unikke i datasættet).

På det foreliggende grundlag forstår jeg simpelthen ikke denne afgørelse (som tilsyneladende er en "vurdering", og ikke en afgørelse).

Det skyldes ikke mindst, at der i e-Privacy forordningsforslaget fra Kommissionen og foreløbige kompromistekster fra Rådet er nye bestemmelser, som vil netop vil gøre denne typer analyser mulige (lovlige), og det fremhæves i bemærkningerne til forordningsforslaget at det ikke er muligt i dag efter det gældende direktiv (som er grundlaget for ERST's vurdering).

Nogle europæsiske teleselskaber presser åbenbart på for at blive det næste Cambridge Analytica...

Jesper Lund Formand, IT-Politisk Forening

30
9. maj 2018 kl. 13:52

Inden man kaster sig ud i en sag, ville det være rart at få klarhed over hvordan TDC er i stand til at sammenknytte anonymiserede poster i et samlet spor af et objekts bevægelse gennem længere tid.</p>
<p>Det bør Erhvervsstyrelsen forklare.

Hvorfor er det Erhvervsstyrelsen der skal forklare ?

Jeg forestiller mig det bliver i retning af:

E: TDC's algoritme laver fuldstændig anonymisering. Spørger: Hvordan gør de det ? E: TDC oplyser <indsæt BS-floskler hashed gennem newspeak18> og vi er tilfredse med svaret.

Ligesom når politiet lader YouSee selv efterforske ... agtigt.

K

29
9. maj 2018 kl. 10:50

"Hej, hvad ved I om mit telefonnummer, der er 12345678, og hvor mine stamoplysninger der knytter mig til nummeret, er hos en konkurrent?"

Hvordan autentificerer man sig egentlig overfor alle dem vi skal have indsigt hos, efter d.25. maj??

Bare på mailadresse? SMS-bekræftelse? CPR-nummer? NemID?

28
9. maj 2018 kl. 10:20

Inden man kaster sig ud i en sag, ville det være rart at få klarhed over hvordan TDC er i stand til at sammenknytte anonymiserede poster i et samlet spor af et objekts bevægelse gennem længere tid.

Det bør Erhvervsstyrelsen forklare.

Især da metoden ifølge artiklen åbenbart også bruges på alle TDCs danske kunder for at identificere nationale turister, så disse også kan "sælges" som statistik.

27
8. maj 2018 kl. 18:52

"Teknisk spørgsmål: Kan teleoperatørerne kun registrere deres egne kunders færden?"

Eller lade os få det Tyske Datatilsyn ind i sagen. i forhold til i Danmark, hvor det mere er et "syns" skyld. Så tager Tyskere deres borger datasikkerhed alvorligt.
Måske hvis TDC ikke længer får lov at lave roaming for Tyske eller andre EU kunder, at de så ikke længer synes at deres "fidus" kan betale sig.

I forbindelse med "at gøre det dyrt at være data misbruger" Er der nogle der kender tyskere som holder ferie i Danmark. Der ud over at have mobiltelefon, også fastholder menneskeretten til et privatliv ?

26
8. maj 2018 kl. 18:25

Måske skulle man for en sikkerheds skyld spørge TDC, selv om man er kunde hos nogen andre teleoperatører?

24
8. maj 2018 kl. 18:07

Teknisk spørgsmål: Kan teleoperatørerne kun registrere deres egne kunders færden?

Godt spørgsmål.. Hvis du har et dansk SIM-kort fra et selskab, som ikke bruger TDC's net, kommer du næppe i kontakt med TDC's net på en måde, som vil tillade TDC at opsamle oplysninger om dig.

Roaming kunder vil typisk kunne forbinde sig til flere/alle mobilnet, fordi de udenlandske teleselskaber kan have roamingaftaler med flere net.

Hvis man som tysker på ferie i Danmark ikke vil overvåges af TDC, skal man prøve at undgå kontakt med TDC's mobilnet. Det kan muligvis sikres ved tvinge mobiltelefonen til at vælge et mere privacy-venligt mobilnet, fx Telia eller Telenor, men om det er muligt i praksis, skal jeg ikke kunne sige..

23
8. maj 2018 kl. 17:55

"Teknisk spørgsmål: Kan teleoperatørerne kun registrere deres egne kunders færden?"

Også min tanke - tyskere er jo ikke TDC kunder.???

20
8. maj 2018 kl. 12:55

Jeg kan desværre ikke selv gøre dette, da jeg aldrig kunne drømme om at oprette et mobilabonnement hos TDC :)

Hvis TDC nægter at efterkomme en indsigelse efter GDPR artikel 21, stk. 1 eller et krav om begrænsning af behandlingen efter GDPR artikel 18, stk. 1, litra d, vil IT-Politisk Forening gerne tilbyde at repræsentere disse registrerede personer ("TDC kunder") i en klagesag til Datatilsynet. GDPR artikel 80, stk. 1 giver mulighed for at en organisation kan klage på andres vegne (det er formålet med NOYB).

Formålet med klagen vil alene være at få denne behandling af personoplysninger stoppet (vi vil ikke rodes ind i krav om erstatning). Ideelt set for alle TDC kunder, men i det mindste for de kunder, som gør indsigelse.

Og selvfølgelig... en klage forudsætter at TDC ikke efterkommer anmodningen om indsigelse mod behandlingen, så det varer lidt inden vi kan komme på banen til "Borgerne mod TDC".

Jeg skriver en opdatering i denne tråd på et senere tidspunkt.

Jesper Lund Formand, IT-Politisk Forening

19
8. maj 2018 kl. 12:36

Selv med en en-vejs algoritme så er det ret let at bruteforce de numre der anvendes, om det så er en kombination. Mener ikke at data er anonyme.

Jeg formoder, at TDC kører en-vejs kryptografisk hashing el.lign. på kundeidentitet med salt prefix (måske endda kundespecifik salt), og at TDC vil påstå at de holder denne salt værdi hemmelig. Under forudsætning af at TDC rent faktisk kan holde saltværdien hemmelig, burde der være en beskyttelses mod brute-force foruden rainbow-tabeller, som TDC selv nævner.

Det ændrer bare ikke ved at der alene er tale om pseudonymisering (ikke anonymisering), og at datasættet med sammenkædede lokationsoplysninger på individniveau er personoplysninger selv efter en eventuel irreversibel destruktion af saltværdier (og dermed muligheden for at forbinde kundeidentiteten med de pseudonymiserede identiteter) på grund af risikoen for re-identifikation.

18
8. maj 2018 kl. 12:25

Det ved vi reelt ikke, om de gør. Selv siger de under "trin 5":

Det var også min læsning, men da de selv skrev at man kunne se at den "anonyme" person havde været i områder ABCZ så holder det ikke.

hvorvidt "rådata" er tilstrækkeligt "anonymiseret"?

Data på enkeltbruger niveau kan aldrig anonymiseres nok hvis det skal være muligt at følge brugeren over tid.

om "aggregeret statistik" er tilstrækkeligt "anonymiseret"?

Hvis de kun udleverer aggregeret statistik så har jeg ikke noget problem med det. Det er på linje med hvis nets fortæller os at der har været 11.3% flere betalinger med kinesiske betalingskort.

Selv hvis TDC ikke bevidst sælger rådata ala Cambridge Analytica, kan oplysningerne falde i andres hænder ved datalækager.

Og det er lige præcist problemet. At når data forlader TDC's "beskyttede" miljø, så er der lille kontrol med det.

17
8. maj 2018 kl. 12:24

GDPR betyder ikke noget her, da anonymiserede data, og data til statistik er undtaget. Dog kan man anmode om, at ens egne data ikke bruges til statistik, og som jeg læser det, så heller ikke anonymt.

Hvis man har lokationsdata historik, så er det bare at smide et kamera op, og så få statistik igen for den periode med kameraet, og så kan man identificere en person, og hans bevægelseshistorik langt tilbage. Man kunne kombinere med en IMSI catcher.

Selv med en en-vejs algoritme så er det ret let at bruteforce de numre der anvendes, om det så er en kombination. Mener ikke at data er anonyme.

16
8. maj 2018 kl. 12:06

Når GDPR finder anvendelse om 17 dage kunne TDC kunder eksempelvis gøre følgende:

 1. Bede om indsigt i de pseudonymiserede personoplysninger, som TDC behandler i dette system. Det er gratis fra 25. maj. Eller bed om ALT hvad TDC har på jer, mens I er i gang..
 2. Gør indsigelse mod behandlingen af personoplysninger til denne "big data" analyse med henvisning til GDPR artikel 21, stk. 1.
 3. Forlang begrænsning af behandingen af personoplysninger jf. GDPR artikel 18, stk. 1, litra d mens indsigelsen efter GDPR artikel 21, stk. 1 behandles. Det kan TDC ikke modsætte sig.

Gør det dyrt for TDC at være datamisbruger!

Jeg kan desværre ikke selv gøre dette, da jeg aldrig kunne drømme om at oprette et mobilabonnement hos TDC :)

Jesper Lund Formand, IT-Politisk Forening

15
8. maj 2018 kl. 11:48

Men at de har dem (og holder på dem i flere måneder), og ydermere efterbehandler og beriger dem, også selvom det ikke har noget med at have os som telefonkunder at gøre, er slemt nok. Synes jeg (men åbenbart ikke ERST).

Selv hvis TDC ikke bevidst sælger rådata ala Cambridge Analytica, kan oplysningerne falde i andres hænder ved datalækager.

TDC kunderne risikerer også, at politiet får adgang til oplysningerne via en editionskendelse. Der er reelt tale om logning, hvilket kan vise sig at være meget nyttigt, når Justitsministeren ikke længere kan ignorere Tele2-dommen og må opgive den dybt ulovligt logningspligt i logningsbekendtgørelsen.

Når TDC kan matche to lokationsoplysninger, kan TDC også fremfinde en bestemt person i det store datasæt. Man kunne også forestille sig, at TDC frivilligt eller efter kendelse udleverer det fulde datasæt til politiet (data er jo "anonymiseret", ha ha), hvorefter POL-INTEL kan lave big data analyser, og TDC kan så senere blive pålagt at udpege de relevante "anonymiserede" målpersoner, hvis Palantirs algoritmer ikke er i stand til at gøre det.

Ingen kan overskue konsekvenserne af det datamisbrug, som TDC har startet her.

Det er offentligt-privat samarbejde om overvågning, når det er bedst for de mørke kræfter (staten og overvågningskapitalismen) og værst for borgerne. Og guess who der er medlem af regeringens nye dataetiske råd...?

14
8. maj 2018 kl. 11:20

At TDC får lov til at sælge information på enkeltbruger niveau er simpelthen skræmmende ...

Det ved vi reelt ikke, om de gør. Selv siger de under "trin 5":

Aggregeret statistik sender til Azure-cloud, så den herefter kan visualiseres i PowerBI-rapporter. Indeholder ikke de anonymiserede rådata.

Udover, at vi her får begrebet "anonymiserede rådata" (den lader vi lige stå et øjeblik), så tyder det på, at lokationsdata bliver liggende hos TDC.

Så det diskussionen går på:

 1. hvorvidt behandlingen af mastedata og "anonymiserede rådata" ligger under Udbudsbekendtgørelsen?
 2. hvorvidt "rådata" er tilstrækkeligt "anonymiseret"?
 3. om "aggregeret statistik" er tilstrækkeligt "anonymiseret"?

Jeg kan ikke se, at der noget sted tales om at TDC sælger data på individ niveau.

Men at de har dem (og holder på dem i flere måneder), og ydermere efterbehandler og beriger dem, også selvom det ikke har noget med at have os som telefonkunder at gøre, er slemt nok. Synes jeg (men åbenbart ikke ERST).

PS: Det gør ondt på mig at skulle gradbøje "anonymiseret", derfor anførselstegn.

13
8. maj 2018 kl. 11:17

Som andre har skrevet tidligere.. når TDC er i stand til at sammenkæde to lokationsregistreringer om den samme kunde, er der tale om pseodonymsering, ikke anonymisering.

TDC oplyser at deres databehandlingsmetode anonymiserer trafik- og lokationdata umiddelbart efter opsamling, og det er tale om reel anonymisering og ikke pseudononymisering, da data ikke kan gøres personhenførbare ved at konstruere en rainbow-tabel.

Det er meget muligt, at andre ikke kan genskabe sammenhængen mellem et telefonnummer og/eller IMSI nummer, fordi der eksempelvis er brugt en-vejs kryptografisk hashingalgoritme med salt, og TDC holder "salt" hemmelig.

Men TDC kan forbinde et mobil/IMSI nummer med den nye identitet, og dermed er der tale om pseudonymisering. Det er præcist definitionen af pseudonymisering i databeskyttelsesforordningens artikel 4, nr. 5.

Og hvordan kan jeg sige dette med sikkerhed..? Jo, for hvis TDC ikke kunne gå fra mobil/IMSI nummer til den nye identitet, ville TDC ikke være i stand til at sammenkæde lokationsoplysningerne. Det er meget simpelt, når TDCs "banebrydende" metode ikke handler om andet end en-vejs kryptografiske algoritmer med salt (hvis der havde stået differential privacy eller lignende, ville diskussionen være lidt mindre simpel).

Derudover erkender TDC, at selv efter en eventuel anonymisering af de pseudonymiserede kundeidentiteter (det kræver at "salt" smides væk), vil der være tale om personoplysninger i databeskyttelsesforordningens forstand.

TDC erkender at når man følger bevægelsesmønstre over en periode, vil der potentielt opstå en mulighed for at det kun kan være en person med netop dette unikke bevægelsesmønster.</p>
<p>»Hvis man kigger på en længere kæde af observationspunkter f.eks.: "Startede i område A, passerede område B, passerede område C kl. x:00 sluttede i område Z y:00" eller "startende i område A og slutter i område B i samme tidsrum i 14 dage", vil det teoretisk kunne lede frem til at kun en anonymiseret IMSI/IMEI/MISDN har denne adfærd.« Skriver TDC i sit svar til Erhvervsstyrelsen.

Det er cases som dette lektor Yves-Alexandre de Montjoye fra Imperial Collega i London har beskrevet. En person bliver ret hurtig unik i et datasæt med adfærd. (Især når TDC gemmer sammenkædede data i 3 måneder; Blip Systems gør det kun i 24 timer med BlipTrack.)

Igen fejler TDC totalt i selskabets forståelse for hvad der er en personoplysning og hvad "anonymisering" betyder:

Det er dog ikke ensbetydende med at man dermed kan udpege hvilken person der er tale om lyder det fra TDC.</p>
<p>»Men da man ikke af andre datakilder, msn med rimelighed kan bringe i anvendelse, kan udlede samme adfærd, vil man alene kunne konkludere, at en anonymiseret bruger har haft denne adfærd. Ifølge TDC er identifikation af en bestemt fysisk person på ved brug af "Single Out" ikke en mulighed,« skriver TDC til Erhvervsstyrelsen.

Denne forklaring giver simpelthen ingen mening. Mener TDC, at fordi selskabet har smidt kundeidentiteten væk, så vil der for alle være tale om en "anonymiseret person" med et (unikt) adfærdsmønster, og ingen vil være i stand til at udpege personen?

Typisk sker re-identifikation ved at bruge nye oplysninger, for eksempel en lokationsregistrering fra offentliggjorte billeder på Instagram, hvor en enkelt uskyldig lokationsoplysning på fx et IG billede betyder at hele profilen, og den til profilen hørende adfærd, kan udpeges i et anden datasæt.

Det er sikkerhedsforståelse som vi begravede for 25 år siden.

Det klassiske eksempel på sådan utilstrækkelig anonymisering er udpegning af en patiant i "anonymiserede" sundhedsdata, hvor en oplysning om at en person er blevet behandlet på sygehus X, for Y på dato Z ofte kan føre til re-identifikation af hele den sammenkædede profil ud fra offentlige tilgængelige oplysninger om XYZ-behandlingen, der er ganske uskyldig (ellers ville den ikke være offentliggjort). Som professor Ross Anderson, Cambridge siger her

“No, anonymization doesn't really protect privacy”, Anderson said about patients' medical records even if personal information such as name or birth date is removed. As an example he cited the date on which Tony Blair, the UK's prime minister at the time, was treated in Hammersmith hospital for atrial fibrillation, which could be readily identified given the publicity over the event.

Der er masser af eksempler på af den slags sker i virkeligheden, fx AOL Search lækagen.

Jesper Lund Formand, IT-Politisk Forening

12
8. maj 2018 kl. 10:59

Og det kan man læse af følgende:

»Hvis man kigger på en længere kæde af observationspunkter f.eks.: "Startede i område A, passerede område B, passerede område C kl. x:00 sluttede i område Z y:00" eller "startende i område A og slutter i område B i samme tidsrum i 14 dage", vil det teoretisk kunne lede frem til at kun en anonymiseret IMSI/IMEI/MISDN har denne adfærd.« Skriver TDC i sit svar til Erhvervsstyrelsen.</p>
<p>Det er dog ikke ensbetydende med at man dermed kan udpege hvilken person der er tale om lyder det fra TDC.</p>
<p>»Men da man ikke af andre datakilder, msn med rimelighed kan bringe i anvendelse, kan udlede samme adfærd, vil man alene kunne konkludere, at en anonymiseret bruger har haft denne adfærd. Ifølge TDC er identifikation af en bestemt fysisk person på ved brug af "Single Out" ikke en mulighed,« skriver TDC til Erhvervsstyrelsen.

Spørgsmålet er hvilke "andre datakilder, msn [man] med rimelighed kan bringe i anvendelse". Jeg kan umiddelbart se følgende eksempler som vil afmaskere brugeren:

 • Betalingskort information
 • ANPG overvågning
 • Nummerplade skanning i indkøbscentre
 • Lokations data ved google søgninger

Hvis man har en bruger der bevæger sig rundt, så skal man for de fleste blot have en 3-4 bestemmelser af brugeren før man kan korrelere det nogenlunde unikt med data fra TDC. Det kan være at resultatet ikke er perfekt, men det vil være godt nok til meget brug.

Pointen er at brugeren kun vælger at bruge sit betalingskort nogle få steder, selv vælger hvornår mobiltelefonen fortæller google om lokation, selv vælger om han vil køre og hvorvidt det er forbi en nummerplade skanner. Men at de ganske få handlinger åbner op for hele brugerens lokationshistorie fra TDC.

At TDC får lov til at sælge information på enkeltbruger niveau er simpelthen skræmmende og vidner om en fuldstændig mangel på forståelse for problemet hos TDC og myndighederne. Alas, de bliver nok klogere når de laver en "Cambridge Analytica"/facebook hændelse ...

11
8. maj 2018 kl. 10:25

Som det står i artiklen, er det kun MSISDN/IMSI/IMEI der anonymiseres - altså personhenførbar information.

Hvis man tager en identifikator (f.eks. cpr-nr eller IMEI) og erstatter den med en oversættelse (løbenummer, hash), men i øvrigt bevarer de øvrige data på individniveau, så er der tale om pseudonymisering.

Og artiklen siger klart:

TDC oplyser at deres databehandlingsmetode anonymiserer trafik- og lokationdata umiddelbart efter opsamling, og det er tale om reel anonymisering og ikke pseudononymisering.

Det er meget muligt, at TDC siger et til ERST og noget andet til Version2, men der er altså noget, som ikke stemmer.

10
8. maj 2018 kl. 10:13

Som det står i artiklen, er det kun MSISDN/IMSI/IMEI der anonymiseres - altså personhenførbar information.

Måske er jeg lidt tung i denne sag. Men hvordan udpeger man netop det antal tyskere, der har været både i Ebeltoft og Viborg, hvis man ikke har en eller anden unik identifikation i de anonymiserede poster?

Det kan ko være forskellige tyskere, der besøger Viborg og Ebeltoft.

Der mangler simpelthen noget ret afgørende i forklaringen så vidt jeg kan se.

9
8. maj 2018 kl. 09:47

Som det står i artiklen, er det kun MSISDN/IMSI/IMEI der anonymiseres - altså personhenførbar information. Lokationsdata, tidsstempel og landekode forbliver rå og kan derfor føres statistik herpå. Er der under 5 for en given, formodentlig landekode tages det ikke med i statistikken.

8
8. maj 2018 kl. 09:37

Hvordan kan man udpege hvor mange tyskere, der både har været i Ebeltoft og Viborg, hvis trafikdata straks anonymiseres?

Det hævder de jo, at man kan.

Er sandheden, at man først laver statistikken på f.eks. en uges poster og derefter anonymiserer?

Eller mangler der noget andet i forklaringen?

Hvad gemmer der sig i det mystiske pkt.4?

7
8. maj 2018 kl. 09:22

Det bliver interessant at se hvordan den historie bliver modtaget i de store lande, med mange turister som besøger Danmark. Og det bliver interessant at se Hvordan det påvirker turisternes opfattelse af Danmark.

6
8. maj 2018 kl. 09:18

Som jeg læser det, laves der kun en eksempelvis HASH på MSISDN/IMSI/IMEI for at anonymisere. Derved forbliver lokationsdata, tidsstempel og landekode i rå form tilknyttet HASH. Det kunne være interessant at vide hvilken metode der bruges til anonymisering, for at bruteforce HASH-værdien når det eksempelvis vides på forhånd at (+45 landekode) er 8 cifre, tager det ikke mange sekunder at bryde.

5
8. maj 2018 kl. 09:11

Måske på tide. At sige helt fra over for TDC.

At få skiftet helt væk fra TDC. Er kunde ved et selskab som bruger TDC nets. Vil lige høre om dem, om de ikke skifter til Telenor/Telia hvis de stadig vil have mig som kunde.

Men det er jo ikke godt i forvejen Samme TDC gad heller ikke sige fra, over for udlevering af IP til rettighedsalliancen. Eller myndighedernes ulovlige krav. Men selvfølge hvis de også selv vil gemme og misbruge data, så skal man da ikke sige nej til andre.

Men måske man skulle høre andre end lige erhvervsstyrelsen, domstolen kan jo have en anden holdning. Desuden vil sådan en spredning af data til 3 part, jo betyde at de får det lidt mere besværligt når de skal overholde GPPR, og samtykke. Udover at udlevere de oplysninger de har samlet.

3
8. maj 2018 kl. 08:16

Pkt. 4 kan jeg ikke forklare, men jeg vil nok anbefale TDC at søge patent, for det lyder banebrydende!

De skriver i artiklen:

Opholdskommunen identificeres ud fra, hvilke master enheden har sin primære tilknytning til, mens data om husstandsprofilen hentes fra Danmarks Statistik.

Det vil jeg umiddelbart sige er et opslag i DSTs tabeller over husstande med primær kommunen som søgning. Det ser ud til at være på kommunalt niveau, men det er da muligt at man kan komme ned i en finere granularitet ala sogne.

1
8. maj 2018 kl. 06:37

At ERST IMHO sætter kikkerten for det blinde øje, kommer ikke bag på mig.

Der er meget at undre sig over, men lad mig lige slå ned på nogle få punkter:

 1. Der sker databehandling, som ikke ellers er nødvendig "i masten".
 2. Data er "reelt anonymiseret", men sammenkøres alligevel efterfølgende med bopælsoplysninger.
 3. Man kan i "reelt anonymiseret" (dvs. ikke kun pseudonymiseret) data tælle antallet af unikke telefoner.
 4. Man kan sammenkæde "reelt anonymiseret" (dvs. ikke kun pseudonymiseret) data på tværs efter en irreversibel anonymisering og fremstille bevægelsesmønster.

Jeg må have misforstået noget, for jeg kan kun forklare pkt. 1-3 ved at TDCs "master" besidder betydelig databehandlingskapacitet, herunder mulighed for at trække på bopælsoplysninger. Pkt. 4 kan jeg ikke forklare, men jeg vil nok anbefale TDC at søge patent, for det lyder banebrydende!

Enten det, eller også taler vi om samme slags "anonym" som ved Trivselsundersøgelsen.

Og så har vi slet ikke snakket om k-anonymity, identificerbarhed af bevægelsesdata, muligheden for at sammenkædning af flere enheder på baggrund af bevægelsesmønster ... eller bare om, hvordan man kan databehandle (anonymisere) til andre formål under Udbudsbekendtgørelsen (men jeg er ikke jurist, så måske betyder ord noget andet, end jeg tror).