Uhyrlig afsløring: Browserhistorik afslører intime detaljer om dig - og sælges videre

Alt, hvad du foretager dig på nettet, kan spores. Tysk tv-program viser, hvor let du kan identificeres ud fra data, der bliver indsamlet fra din browserhistorik.

Vores færden på nettet - uanset om det gælder shopping, bankforretninger, rejseplanlægning eller surf, der afslører vores seksuelle præferencer - bliver gemt i browserhistorikken. Og multinationale selskaber elsker det, for de driver milliardforretninger på den blotlagte information. Det skriver NDR.

De mange browserdata bliver nemlig solgt videre i mindre pakker, og firmaer kan sågar abonnere på dem under påskud af, at det ikke skader brugeren, og at de forbliver 'anonyme'.

En undersøgelse foretaget af NDR viser endog, hvor nemt de indsamlede data kan henføres til bestemte personer, og hvor afslørende detaljegraden er.

Over en måned foretog NDR-programmet 'Panorama' undersøgelser af et stort datasæt om flere millioner internetbrugeres færden i august.

Datasættet afslørede meget intime detaljer om brugerne, og det var ikke kun almindelige private brugere, det drejede sig om. Flere kendte personer figurerede i datasættet, herunder politikere, dommere og journalister.

Mange personlige afsløringer

Ifølge NDR viste datasættene blandt andet oplysninger om en igangværende politiefterforskning, interne salgstal fra en medievirksomhed, en dommer med sadomasochistiske præferencer og almindelige websøgninger om prostitution, sygdomme og narkotika.

Big Data-specialist Andreas Dewes finder det meget absurd.

»For mig var det meget overraskende at se, hvor let man kan deanonymisere mange af de data. Respekten for privatlivets fred er slet ikke til stede,« fortæller han.

Web Of Trust

NDR nævner, at de har brugt WOT (Web Of Trust) og en række browserudvidelser til at indsamle de mange data.

Paradoksalt nok giver WOT faktisk en service, der skal hjælpe brugeren til at surfe sikkert.

Udvidelsen kontrollerer integriteten af de websteder, som brugeren besøger, dvs. tilbyder sikkerhed og privacy-vejledning til brugerne om websteder.

Brugerens adfærd bliver dog samtidig registreret i baggrunden, og data bliver videresendt til en server, der står i et andet land, hvor de bliver gemt sammen med en et bruger-ID, der indeholder dato, tid og webadresse.

Data bliver herefter solgt til mellemmænd, der så i sidste ende har solgt data videre til eksempelvis NDR.

WOT antyder godt nok på sin hjemmeside, at data bliver opfanget og sendt videre til tredjepart, men understreger samtidig, at data er anonyme. NDR kunne dog i en stikprøve af 50 brugere identificere dem allesammen via eksempelvis e-mailadresser, der indeholdt navn eller brugernavn.

Adgang via falsk firma

For at få adgang til oplysningerne har journalisterne fra NDR etableret et falsk firma, der fremstod som aktivt i Big Data Business.

De oplevede, at op til fleres selskaber var villige til at sælge webdata om tyske brugere, og et selskab tilbød at analysere den indsamlede data for NDR's falske firma.

De fleste af de firmaer, der sælger data, fremhæver, at de ikke vil indsamle personlige data og konkludere på dem. Men oplysningerne, NDR har fået fat i, er meget eksplicitte.

På en af de identificerede brugere fandt journalisterne oplysninger om telefonnumre mailadresser, kopi af identitetskort og lønsedler på brugeren og hans kone.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (37)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Anne-Marie Krogsbøll

Patrick Moeg:

Det e muligt, at jeg har misforstået det, men er artiklens pointe ikke bl. a. (ikke kun), hvor let det er at afanonymisere data, som er såkaldt anonymiserede?

I givet fald, så er det da i høj grad relevant, idet vi jo får at vide, at vore følsomme data i det offentlige, herunder sundhedsdata, som deles med utallige forskere - og også gives videre til private firmaer og udenlandske forskere - er "anonymiserede" - og derved sikret tilstrækkeligt?

Dennis Krøger

Det e muligt, at jeg har misforstået det, men er artiklens pointe ikke bl. a. (ikke kun), hvor let det er at afanonymisere data, som er såkaldt anonymiserede?


Det er svært at konkludere noget generelt ud fra et specifikt tilfælde af dårlig anonymisering som her.

Men ja, man skal være meget påpasselig med hvordan det gøres, hvor meget der bliver taget med og hvor meget forkellige stykker information kan relateres til den samme person. Lidt for mange detaljer der i sig selv ikke er noget problem, og det bliver muligt at finde ud af hvem er der bag det datasæt.

Patrick Moog

Det e muligt, at jeg har misforstået det, men er artiklens pointe ikke bl. a. (ikke kun), hvor let det er at afanonymisere data, som er såkaldt anonymiserede?

Nej, pointen fra artiklen er at det er let at købe "anonymt" data fra WOT. Denne data har så let kunne "afanonymiseres". Det kan du så perspektivere ud til at andet web statistik der måske også er for let at afanonymisere, men at gå helt over i lægefagligt forsknings materiale er alt for langt.

Bjarne Nielsen

Det er svært at konkludere noget generelt ud fra et specifikt tilfælde af dårlig anonymisering som her.

Ja, i bagklogskabens klare lys, så er det tydeligt, at den var for dårlig. Og vi kan ikke vide, om der er tale om fuskere eller sjuskere.

Derfor hæfter jeg mig også mere ved de kommentarer, som kommer fra personerne i indslaget: den ramte, it-eksperten og politikeren. De havde ikke set det komme - anonymisering virkede som et "ryk direkte til start"-kort. Anonymisering er - som kryptering - ikke noget, som man skal prøve på selv. Det er alt for nemt at lave noget, som kun ser sikkert ud.

Samtidig illustrerer det vel også udfordringen med, at der er modstrid imellem værdien af data og graden af anonymisering. Her har forsøget på at skabe værdi åbenbart fået lov at overskygge sikkerheden - bevist eller ubevist. Det er kun menneskeligt, og derfor bør det være sådan, at har man selv værdi af data, så er man som udgangspunkt inhabil i forhold til vurderingen om, hvorvidt de er tilstrækkeligt anonymiserede.

Derfor bør vi også være skeptiske alle steder, hvor man siger "stol på os, fordi ... anonymiseret!" Specielt, hvis det kommer fra personer, der ikke har det som deres fag-domæne.

Patrick Moog

Kan du forklare hvorfor?


Forstå mig ret, der kan sagtens være anonymiserings problemer i begge typer af statistik, men at der i dette tilfælde er et problem i et lyssky browser plugin, kan ikke videreføres til forskningsmateriale som jo er en helt anden type data.

Det viste sig at WOT analytics indeholdt brugernavne og emails, noget der er ret nemt at binde på en person, det betyder jo ikke at alt andet data i verden er lige så usikkert...

Bjarne Nielsen

i en tyk fed VPN faktor 100 før de sendes ud og lege på nettet

Ja, det er nok desværre nødvendigt. Men af andre årsager (som f.eks. S.Pinds sessionslogning), for et browserplugin som WOT tager bare selv, inden pakkerne er ude døren.

Desværre er vi nok kommet derhen, hvor man ikke bør installere addons eller plugins eller extensions i sin browser (medmindre at man ved præcist, hvad man gør - og selv der bør man nok tøve en kende).

Anne-Marie Krogsbøll

Tak for svar, Patrick Moog.

De ting, der kom frem vedr. anonymisering af vores sundhedsdata i forbindelse med behandlingen af den nye sundhedslov, tydede for mig - (sådan som jeg husker det, har ikke lige tid til at finde det frem, så hvis du ved, hvordan man gør, så giv det gerne videre) - ikke på, at anonymiseringsniveauet er specielt højt i sundhedsvæsnet. Som jeg husker det, er det noget med at fjerne navn og cpr-nummer o.l. For forskerne har jo netop brug for at kunne koble diverse variable til bestemte sygehistorier - derfor ofte kun "pseudoanonymisring".

Og da det offentlige deler meget gavmildt ud af disse data til rigtigt mange formål - kun med ringe kontrol, da Datatilsynet er fuldstændigt overbebyrdede, så er risikoen for, at disse data kommer nogen i hænde, som godt kan finde ud af at anvende Big Data til at afanonymisere - f.eks. ved at samkøre vore sundhedsdata med oplysninger som dem, denne historie handler om. - ganske stor, for mig at se.

Og selv for Big Data-eksperten her, er det åbenbart overraskende, hvor let det kan være:
"Für Big Data Scientist Andreas Dewes ein Unding. "Für mich war sehr überraschend, wie einfach man einen Großteil der Daten deanonymisieren konnte."

Kenn Nielsen

Forstå mig ret, der kan sagtens være anonymiserings problemer i begge typer af statistik, men at der i dette tilfælde er et problem i et lyssky browser plugin, kan ikke videreføres til forskningsmateriale som jo er en helt anden type data.

Det er vel netop den slags argumenter , som bruges til at sige:

"Jaja hér har vi godtnok et eksempel på at deanonymisering er simpelt, men dette er data om personers browsehistorik, og du taler om data om folks sygdomshistorik og disse to kan slet slet ikke sammenlignes. Og DERFOR er din bekymring bare noget tinfoil-pjat"

K

Patrick Moog

"Jaja hér har vi godtnok et eksempel på at deanonymisering er simpelt, men dette er data om personers browsehistorik, og du taler om data om folks sygdomshistorik og disse to kan slet slet ikke sammenlignes. Og DERFOR er din bekymring bare noget tinfoil-pjat"

Wow, hvordan du når frem til at det var det jeg sagde ved jeg ikke...
Jeg prøver igen: der kan sagtens være problemer i behandling af sygdomshistorik anonymisering, men det har ikke en fløjtende fis at gøre med artiklen...

Anne-Marie Krogsbøll

Jeg prøver igen: der kan sagtens være problemer i behandling af sygdomshistorik anonymisering, men det har ikke en fløjtende fis at gøre med artiklen...


Men, Patrick - har det først noget med sygdomshistorisk anonymisering at gøre, den dag det er gået galt med vore sundhedsdata (mere end det allerede er gået galt)? Er det ikke klogt at lære af historier som denne for at undgå, at vores sundhedsdata og andre offentlige data pludseligt også er til salg på nettet i afanonymiseret form? Skal det ligefrem gå helt galt i sundhedsvæsnet, før vi synes, at vi har de nødvendige (dårlige) relevante erfaringer til at råbe vagt i gevær på det område?

Det kunne være interessant, hvis der er nogen her, som faktisk ved, hvordan man anonymiserer indenfor det offentlige og i sundhedsvæsnet - så kan der måske komme en interessant diskussion ud af, om disse data vil være ligeså - eller slet ikke (der er vel en helt skala her af muligheder her) ligeså lette at afanonymisere disse data, som dem i artiklen - hvor man jo må sige, at det er meget groft.

Patrick Moog
Bjarne Nielsen

Ha ha ha, jeg giver op :D

Tak, Patrick, du fik da AMK til at argumentere for hendes synspunkter ... :-).

Hvis jeg lige må vende tilbage til den oprindelige artikel, så sidder jeg og bliver en smule paranoid over, hvor mange der efter sigende var villige til at sælge oplysninger om os til det fup-firma, som NDR satte op. Det lød til at være væg-til-væg dækning af hele den tyske befolkning.

Nu var det så WOT, som faldt i, fordi de var ivrige nok til at ville give en gratis vareprøve. Men hvad med alle de andre? Hvor mon de har deres data fra? Mon det alle er browserplugins?

Eller kan det måske være reklamenetværk ("vi indsamler data om dig for at give dig en god brugeroplevelse, og vi deler dem med samarbejdspartnere"), eller er det opsamling af "anonyme brugsdata" fra TV med stemmegenkendelse, kommercielle operativsystemer, virtuelle keyboards på smartphones, eller endda vores egne biler (hvis de er nye nok!)? Listen er sikkert meget længere, og bliver nok kun endnu længere af IoT bølgen.

Som den tyske politiker lettere opgivende sagde (citeret fra min ikke altid lige pålidelige hukommelse): "hvis ikke det er forbudt, så burde det være det". Ja, det skal nok gøre indtryk på et firma i Finland, at en tysk politiker siger det!

Vi har vist brug for at der bliver lyttet meget mere til dem, som kan se problemer, og knapt så meget til dem, som kun kan se muligheder.

Bent Jensen

afsløring => Kommer vel an på om man har levet med eller uden en sølvpapirshat. Hvis man har, og bruger addbloc, og Privacy Badger og ser de 15-30 sider og link der bliver blokeret, så er det ikke en afsløring.

Uhyrlig=> Hvad for en del ? Der er ikke mange superlativ tilbage, når der virkelige sker noget. Som mord, kidnapning og frigivelse af hele CPR register og alles sundhedsdata.

Så en "Uhyrlig afsløring" her efter post frihedshelten og samvittighedsfange edward snowden afsløringer. Nej det synes jeg ikke.

Henrik Biering Blogger

Jeg prøver igen: der kan sagtens være problemer i behandling af sygdomshistorik anonymisering, men det har ikke en fløjtende fis at gøre med artiklen...


Deanonymisering kan netop ske ved kombination af datasæt, som hver især er ukritiske og opsamlet på vidt forskellig vis, men som samlet kan lede til kritisk viden om enkeltpersoner.

Et sygdomsdatasæt kunne indeholde data om at 5 danskere lider af en særlig sygdom, f.eks. én i hver region. Kobler den super-ambitiøse forsker eller medicinalvirksomhed nu dette datasæt med data om af danskeres "gadget"-historik samt browserhistorik, f.eks. deres søgninger om sygdommen, webkøb på apoteket, besøg på sundhed.dk m.m. er der rig mulighed for deanonymisering.

Derfor synes jeg som første skridt, det ville være godt hvis nogen har et link til sundhedsstyrelsens detaljerede anonymiseringsvejledning (jeg kunne kun lige finde denne overordnede brochure), så vi får mulighed for at vurdere om den giver tilstrækkelig sikring mod deanonymisering i lyset af de enormt mange andre datakilder, der i dag - og endnu mere i fremtiden - vil være tilgængelige for kreative sjæle.

Daniel Lindholm

Jeg tror at nogen herinde glemmer hvad en browserhistorik egentligt er: En samling af url'er du tidligere har besøgt. Sandsynligvis også påstemplet med dato og tid.
Hvordan kan forskerne så afsløre så meget om den enkelte?
Mit gæt er at de ikke blot har analyseret url'et, men også set på hvad der gemmer sig bag linket, altså 'klikket' på det.
Og hvad kan man så finde?
Mange tjenester sender såkaldte 'private' links til deres brugere. Fx får du et link på e-mail, hvis du har glemt dit password til en hjemmeside. Når du klikker på det kommer du måske til en side ser viser dit brugernavn eller e-mail og beder dig indtaste et ny password. Eller, "velkommen som ny bruger, klik her for at bekræfte din e-mail". Hvis sikkerheden ikke er helt i top, kan disse data måske stadig vises flere måneder efter at linket er udsendt.
Andre 'private' links kunne være til fildelingstjenesten, hvor din ven har lagt en fil der var for stor til at sende på e-mail. (Årsregnskabet til virksomheden, kundelisten, eller...) Og du behøver måske ikke at registere dig for at downloade filen. Det er sikkert nok, for det er jo kun dig der har linket, ikke? <Ironisk>
Eller dit arbejde der er så venlige at sende dig et 'privat' link hvor du kan se din lønseddel. Mulighederne er uendelige.
Selv om mange tjenester er sikre at benytte, hvad tror du der ville komme frem hvis man loadede dine sidste 100.000 klik igen?
Og så er der selvfølgelig de links der indeholder e-mail eller anden privat information i klar tekst.

Søren Breddam

Det e muligt, at jeg har misforstået det, men er artiklens pointe ikke bl. a. (ikke kun), hvor let det er at afanonymisere data, som er såkaldt anonymiserede?


Der er en mulighed for, at du har ret.
Du skal bare reflektere over korrelation og kausalitet.

At man kan deanonymisere browserdata betyder, at anonyme sundhedsdata ikke i realiteten er anonyme. Der er ingen årsagssammenhæng.

Harry Jessen

Hvis man synes at man også gerne vil dele sine data fra tablet og mobiltelefoner, så har WOT heldigvis også en App der muligvis kan klare det problem og heldigvis er Appen gratis. Take a look at "Mobile Security & Protection" https://play.google.com/store/apps/details?id=com.my.wot

Om man også kan få den til andre platforme, ved jeg ikke.

Hvis der er nogen der har Appen installeret, vil jeg dog anbefale at de hurtigst muligt afinstallerer den.

Tysk tv har iøvrigt fortsat med at fortælle om historien, og blandt andet er også data fra journalister, forbundsdagsmedlemmer og medlemmer af EU parlamentet.

Med hensyn til sundhedsdata, kan søgning på medicin eller specifikke sygdomme også give et fingerpeg.

Lasse Nielsen

Jeg har lidt svært ved at gennemskue om dette kun relatere sig til add-ons?

Er det WOT et plugin til sin browser som stjæler data og sælger det videre eller et script eller lignende som skrives ind i koden til en hjemmeside, hvorfra den så kan stjæle data fra sidens besøgende?

Og vigtigst af alt; hvordan sikre man sig selv mod den her form for data-tyveri?

Kenn Nielsen

Vi har vist brug for at der bliver lyttet meget mere til dem, som kan se problemer, og knapt så meget til dem, som kun kan se muligheder.

Hvilket er grunden til jeg skrev som jeg gjorde.

Jeg mener at erfaring er den bedste læremester,
- eller på nudansk "så ka' de lær' det".

Men privacy og vore data, er for vigtige til at vi bare venter på at en "stor nok kage" rammer vindmøllen.

For så er det for sent.

Derfor må 'man' være "lidt mere fremme i skoene"..

K

Harry Jessen

Det er en add-on til browseren som indsamler oplysninger og sælger dem videre.

Det skal samtidig siges at WOT kun er et eksempel og hvor tysk tv mener at kunne bevise det. Om det er gennem WOT de har fået adgang til dataene ved jeg ikke, men det er da en mulighed, men der kan være flere andre tilføjelser der samler data og sælger dem videre.

Kenn Nielsen

Og vigtigst af alt; hvordan sikre man sig selv mod den her form for data-tyveri?

Generelt skal man være særdeles kritisk når en eller anden service tilbyder "at checke" noget for dig.

F.eks. tilbyder at:
-kontrollere at dit password er stærkt nok - for så har 'de' jo lige fået det, ik'?
-kontrollere om du er ved at lande på et 'farligt' site. - For så ved 'de' hvad du laver (WOT)
-kontrollere om dit brugernavn/password er stjålet - for så har 'de' jo lige fået det, ik'?
-OSV..

K

Martin Hoffmann

har det først noget med sygdomshistorisk anonymisering at gøre, den dag det er gået galt med vore sundhedsdata (mere end det allerede er gået galt)?

Det er ikke det, Patrick mener.
Sygdomshistorisk anonymisering har først noget med denne artikel at gøre, når det er din browserhistorik der gør at oplysningerne lækkes.
Sikkerheden af sundhedsdata er meget, meget, meget vigtig. Men det gør ikke at den problemstilling er relevant for alle andre ting som er meget vigtige.

Patrick, du må ikke give op :)

Anne-Marie Krogsbøll

Martin Hoffmann:
Tak for dit tålmodige forsøg på at oplyse mig.

Sygdomshistorisk anonymisering har først noget med denne artikel at gøre, når det er din browserhistorik der gør at oplysningerne lækkes.


Jeg er klar over, at det er sådan, du og Patrick ser det. Jeg er så ikke enig. For mig at se indeholder historien to historier:
1) At man skal være meget forsigtig med at stole på tilfældige mere eller mindre gustne browserudvidelser, add-ons etc. Det er en meget vigtig pointe, og dybt forargeligt, at man lover øget sikkerhed og anonymitet, men samtidig videresælger data - selv hvis de er anonymiserede.
2) At begrebet "anonymisering" er endog særdeles elastisk, for ikke at sige upålideligt. Og det kan for mig begrunde, at man også kigger kritisk på andre steder, hvor der henvises til, at det er helt forsvarligt at indsamle og ophobe store mængder følsomme persondata, fordi data er anonymiserede. Altså problemet med, hvordan anonymitet forholder sig til Big Data.

Begge problemstillinger er sikkert særdeles velkendte for de fleste herinde, men historien peger alligevel på, at vi skal være på vagt, de steder hvor begrebet "anonymitet" anvendes. Og der er vore sundhedsdata noget af det mest følsomme, er udsat for "anonymisering", og derfor et område, hvor man i særlig grad bør rette luppen mod, hvad der egentligt menes med "anonymisering" i sundhedsvæsnet. Anvendes det ligeså naivt der, som hos WOT? Er det et dybest set indholdsløst udsagn for at berolige befolkningen, eller kan noget som det i artiklen nævnte faktisk ikke ske, selv hvis følsomme "anonymiserede" sundhedsdata skulle slippe ud ved et uheld?

Set fra mit synspunkt er man nødt til at se alle disse enkelthistorier i en større sammenhæng, som udtryk for at spørgsmålet om privatliv, persondata og overvågning fortsat ikke tages særligt alvorligt. For hvis man insisterer på at blive ved med at se hver historie som en isoleret hændelse, og hele tiden fokusere på de forskelle, der kan være i historierne, så vil der aldrig komme fokus nok på, at der er noget helt grundlæggende galt med holdningen til persondata, hvis man bare kan slynge ordet "anonymisering" rundt som om, det siger noget som helst om sikring af vore data.

Anne-Marie Krogsbøll
Bjarne Nielsen

Fordi et add-on - her WOT - viser sig at være svindel, kan andre stadig være effektive.

Alle skotter, jeg har mødt, har været rødhårede, så derfor er alle skotter rødhårede :-).

Jeg medgiver at WOT er et ekstremt eksempel, men sagen trækker dog alligevel en række spor:

  • Der var mange flere end kredsen bag WOT, som gerne ville sælge detaljerede oplysninger til det af NDR til lejligheden konstruerede big-data fup-firma.
  • WOT har demonstreret hvor lidt vi kan stole på de fine ord i privatlivserklæringer.
  • WOT har (måske) demonstreret, hvor nemt det at stikke sig selv blår i øjnene, når man anonymiserer (eller også har det demonstreret, hvor nemt egen vinding kan lokke i fordærv).
  • WOT har demonstreret hvor meget addons kan, og hvor meget vi er nødt til at stole på dem, som har lavet addon.

En af dem, som kom med i sagen, er en IT-journalist fra Süddeutsche Zeitung, og på hans private blog mumler han noget med, at han ikke bruger WOT. Alt tyder på, at NDR ikke har fortalt os alt, og at vi bare har set toppen af et meget stort isbjerg.

Han afslører også lidt om, hvordan han blev reidentificeret. De data han så, var for det første pseudonymiseret, dvs. allerede opdelt i fine pakker, en per bagvedliggende person (han så derfor kun sine egne data). Er der bare et datum, som peger på personen bagved, så ligger alt åbent. I hans tilfælde var det en twitter url, som dels indeholder hans twitter id, og dels kun kan tilgås, hvis man er logget ind.

Pseudonymisering er netop af denne grund en yderst farlig form for anonymisering, og er sikkert valgt her, fordi man har vægtet værdien af data alt for højt i forhold til anonymitet.

Fulde URLs gør også reidentifikation så meget nemmere end f.eks. rene sitenames. Her har værdi igen vundet over sikkerhed (man er ikke kun interesseret i, hvor du har været, men også i hvad du har lavet der).

Men selv med sitenames alene, vil det være nemt at reidentificere, hvis man kan kombinere oplysningerne med data fra andre kilder. Oplysningerne var udstyret med præcist tidsstempel, og det er en rigtig god start. Sitenames alene kan også være svært kompromitterende: dommeren med smag for hård porno ville stadig være et nemt offer for afpresning.

Der er stærke økonomiske incitamenter for at udstille os, og teknikken gør det kun alt for oplagt. Derfor ser jeg også debattører, som taler for, at dette er et politisk problem. I nyeste PROSA-blad taler en af de interviewede for at der bør laves branche-etiske retningslinjer. Flere tyske debattører går videre og efterlyser konkret lovgivning. Det giver selvfølgelig udfordringer i forhold til rækkevidden af lovens lange arm, men allerede hvis vi lokalt kunne gøre det til omgang med hæler-varer, vil det hjælpe. Og så ville det også gøre det nemmere at vælge, hvem vi ville stole på ... jo længere væk, jo mindre tillid.

Og indtil da, så må vi acceptere at det er det rene og skære vilde vesten, som hersker, og tage vores forholdsregler. Vi kommer i sidste ende til at stole på nogen (som også siges i citatet ovenfor) - jeg er dog blevet endnu mere mistroisk, og har nu slettet det ene af de to addons, som jeg ellers brugte (og som jeg ikke selv havde skrevet). Og nej, det var ikke WOT :-).

Bjarne Nielsen

... uden at indse det fulde omfang af, hvad vi siger ja til, fordi vi opfatter det som enkeltsituationer, og ikke ser hver enkelt "ja" som en lille bid i et stort puslespil

Lige præcist.

I flere af de sager, som jeg har hørt om, er reidentifikation sket ved at kombinere flere, og hver for sig, uskyldige datakilder. Et klassisk eksempel er Netflix datasættet, som blev reidentificeret ved at kombinere det med anmeldelser fra IMDB. Så selvom alle, hver for sig, gør et godt stykke arbejde, så kan det alligevel gå galt.

Så puslespillet er en god analogi: hvem har ikke prøvet, at det er den iøvrigt helt anonyme brik med blå himmel, som pludselig får tingene til at hænge sammen?

En langt bedre beskyttelse opnår man, når man dels udjævner data i grupper og måske endda tilføjer støj. Men også her kan man komme i problemer, hvis de samme data bruges for ofte - også selvom der laves nye grupper og tilføjes ny støj.

En intuition om hvorfor kan man få, hvis man har forsøgt sig med astro-fotografering: her kæmper man imod sensor-støj og udtværing fordi lys har passeret atmosfæren. Det kompenserer man for ved at tage flere billeder og kombinere dem - har man nok billeder af samme del af himlen, så kan man få et overraskende klart resultat ud af det (der er også et par andre tricks, men de er knapt så relevante for denne intuition).

Så ikke alene er der en modsætning imellem graden af beskyttelse og værdien af data ved anonymisering. Beskyttelsen kan altså blive "slidt" op ved at data blive brugt for tit, også selvom det er forskellige sammenhænge.

Men bevares, vi må tro på, at det ikke er nær så fjollet, som det vi har måttet høre om med WOT. Her var datasættet tilsyneladende "anonymiseret" med så let hånd, at der ikke behøves andre kilder.

Martin Hoffmann

Hej Anne-Marie

Jeg er klar over, at det er sådan, du og Patrick ser det. Jeg er så ikke enig. For mig at se indeholder historien to historier

Godt så. Det kan vi bedre arbejde med.:)
Det var bare det, at du blev ved med at argumentere for det samme, uden at tilkendegive at du havde forstået Patricks indsigelser. Det anede mig at du nok bare var uenig, men det fremgik bare ikke før ovenstående, og så er det svært at debattere.

Log ind eller Opret konto for at kommentere