bloghoved ole tange

Kan man lave et smagsnetværk med privacy-by-design?

René Løhde vil lave en Ashley Madison klon. Jeg vil gerne lave Netflix og Spotify.

Hvordan skulle Netflix have været designet så:

  • man kan understøtte et smagsnetværk ("Folk, der lige som dig så film X, så også film Y").
  • modtageren kan se en film uden at Netflix kan tracke hvilken abonnent, der så filmen.
  • Netflix kan tracke hvormange gange en given video totalt er afspillet, så de kan afregne med producenten.
  • afspilleren er skrevet som fri software, så jeg som kunde kan checke, at der ikke er spionfeatures i den.

Og tilsvarende for Spotify: Hvordan skulle Spotify have været designet så:

  • man kan understøtte et smagsnetværk ("Folk, der lige som dig lyttede til X, så lytter også til Y").
  • modtageren kan se høre en sang uden at Spotify kan tracke hvilken abonnent, der hørte sangen.
  • Spotify kan tracke hvormange gange en given sang totalt er afspillet, så de kan afregne med kunstneren.
  • afspilleren er skrevet som fri software, så jeg som kunde kan checke, at der ikke er spionfeatures i den.

Altså: Hvordan kunne man re-designe Netflix/Spotify, hvor man tager privacy-by-design med ind så mit privatliv blev respekteret?

Kommentarer (15)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Ivan Skytte Jørgensen

"Folk som så X så også Y" kræver oplysning om hvad du ser. Hvis det indsendes til netflix anonymt, så åbner det for misbrug af producenter som vil promovere en film, så de kan få systemet til at påstå "Folk som så Mary Poppins så også Mad Max 7". Det kan muligvis undgåes ved anonyme tokens, men jeg har ikke bogen Applied Cryptography indenfor rækkevidde.

Afspilleren som fri software: Teknisk muligt. Softwaren kan være åben, og man modtager kun dekrypteringsnøglen når man køber en film. Men filmproducenterne vil næppe acceptere det fordi hvis man har softwaren og nøglen, så kan man (gys!) dekryptere filmen og afspille den på en anden computer, og dermed er der åbent for piratkopiering.

  • 2
  • 0
#2 Lars Nielsen

Hvis vi antager følgende: - Det er okay at se, hvad der er set i din nuværende session. - Hvis man har favoriter, skal spotify havde adgang til disse (uden adgang til selv bruger information, ud over en eller anden identifikation) - data om media afspilling gemmes, men uden bruger info.

Hvis vi benytter af disse antagelser, kan man danne sig et indblik i en "brugergruppe" uden at havde kendskab til brugers personlige information. Derved kan man udfra nuværende session og sessions id. Få anbefalinger uden at dele personlig information

  • 0
  • 0
#3 Bjarne Nielsen

Med fare for at udstille mig som som værende inkompetent, så kommer her et hurtigt skud fra hoften:

Oprindelse burde vel kunne skjules med en form for onion routing.

Anbefalinger behøver vel næppe adgang til fuld historik, hvis der bare er nok af dem. Hvis man ledsagede sin (anonyme) forespørgsel på X med et enkelt 'jeg kunne har også set/hørt Y', så burde der efterhånden tegne sig nogle mønstre. En udfordring er smalle film (Koyaanisqatsi afslører nok mere end Convoy som afslører mere end Star Wars), og modtrækket med kun at afsløre de Y som allerede har nået en vis popularitet, vil gøre data mindre værdifulde.

PS: jeg går selv og koger over 'anonym rejsehjemmel'. Hvordan knækker man den, uden flatrate abonnement, hvis man vil tillade elektronisk betaling (gerne optankning/månedlig afregning)?

  • 1
  • 0
#4 Ivan Skytte Jørgensen

jeg går selv og koger over 'anonym rejsehjemmel'. Hvordan knækker man den, uden flatrate abonnement, hvis man vil tillade elektronisk betaling (gerne optankning/månedlig afregning)?

Jeg mener at anonym elektronisk betaling er beskrevet i Applied Cryptography. Så vidt jeg husker så er det desværre ret tungt, da der skal genereres public/private keys pr. "pengeseddel".

  • 0
  • 0
#5 Bjarne Nielsen

Jeg mener at anonym elektronisk betaling er beskrevet i Applied Cryptography.

Tak, Ivan, for tippet. Jeg kunne ikke lige finde afsnittet om anonyme betalinger, men kan se, at blind signatures i øvrigt ofte nævnes ifm. emnet. Jeg var vist på vildspor, for blind signatures kan måske bruges (det må være nok at holde billetten anonym; jeg tænkte i retning af zero knowledge proofs for at holde billetten hemmelig):

Lad os antage kun et trafikselskab og kun en billetpris. Brugerne kan nu lave deres egne billetter (sikkert efter et standardformat med tid og rute og et tilfældigt valgt id). Billetterne 'stemples' ved at man får en blind signature på billetten fra trafikselskabet samtidig med betalingen. Trafikselskabet kender ikke billettens indhold, og kan derfor ikke knytte den til personen via betalingen, og signaturen bekræfter kun at betaling er fundet sted, så der er ingen risiko ved at lave signaturen.

Hvis der er kontrol, så kan billetten og dens signatur kontrolleres, og det uden at det kan spores tilbage til betalingen (og dermed personen). Møder man to billetter med samme id, så er det nok kopier. Faktisk kan jeg ikke lige se noget teoretisk problematisk ved at kontrollere alle billetter, hvis man skulle ønske det (men der kan være nogle praktiske udfordringer...).

Det kan selvfølgelig generaliseres til flere trafikselskaber, som så hver især skal have deres egen signatur (så man kan se, at betalingen er gået det rette sted hen). Og det kan også generaliseres til et mindre antal forskellige priser, som hver især skal deres egen signatur: når man kontrollerer signaturen på en billet kan man også se om prisen passer.

Og undskyld Ole, for at have afsporet debatten; jeg må hellere undlade at bede om kommentarer til ovenstående.

  • 0
  • 0
#6 Christoffer Kjeldgaard

IPC har udfærdiget en teknisk rapport om biometrisk genkendelse, der har nogle af de samme problemstillinger som her.

I korte træk går det ud på at brugsdata og personhenførbar information adskilles. Ved at bruge en envejs hash-algoritme laves der en pointer, der fra brugsdata peger på personens information. Så længe pointeren er aktiv kan der tilføjes information til 3rd party, uden at de ved hvem der er i den anden ende. Pointeren destrueres herefter, og der er ikke noget link mellem dig og den information, der ligger hos 3rd party. 3rd party kan herefter generere en profil af dine serie og film-vaner, uden at vide noget om dig.

Det kræver selvfølgelig at du, som bruger, opbevarer dine private informationer til at generere den unikke hash hos dig selv, eller en udbyder du stoler på, og forudsat der kan betales anonymt.

Der er nogle sikkerhedsmæssige problematikker, som 3rd party skal håndtere i form for at sikre at deres content kun kan ses af et hash, der er gyldigt, og der vil være en hit / miss ratio, kunden skal informeres om.

Link til rapporten: https://www.ipc.on.ca/images/Resources/pbd-solutions-biometric.pdf

  • 2
  • 0
#7 Bjarne Nielsen

I korte træk går det ud på at brugsdata og personhenførbar information adskilles.

Jeg citerer lige fra den linkede artikel:

While the idea of database separation is a step in right direction, this is not enough.

...hvorefter artiklen diskuterer hvordan kan sikrer sig imod reidentifikation ud fra biometriske data. Det er en interessant opgave.

Reidentifikation ud fra "smagsdata" alene er overraskende nemt, hvis historikken er nogenlunde komplet. Jeg har tidligere henvist til dengang Netflix kom galt afsted netop med dette.

  • 1
  • 0
#8 Christoffer Kjeldgaard

...hvorefter artiklen diskuterer hvordan kan sikrer sig imod reidentifikation ud fra biometriske data. Det er en interessant opgave.

Helt rigtigt, separation alene er ikke nok, men, ihvertfald nogle af de supplerende teknologier har forladt konceptstadiet. Eksempelvis kunne en variant af BE one-to-many designet bruges. Den overordnede konklusion er stadig, at det kan lade sig gøre.

Reidentifikation ud fra "smagsdata" alene er overraskende nemt, hvis historikken er nogenlunde komplet. Jeg har tidligere henvist til dengang Netflix kom galt afsted netop med dette.

Den reelle sag fra 2001 omhandlede jo ikke at Netflix data ikke var anonyme. Problemet var at brugere på andre sider sammenkoblet med user-ratings og timestamps gjorde det muligt at "gætte" på at dette var den rigtige person.

The researchers working with the anonymous Netflix data didn't painstakingly figure out people's identities -- as others did with the AOL search database last year -- they just compared it with an already identified subset of similar data: a standard data-mining technique."

http://archive.wired.com/politics/security/commentary/securitymatters/20...

Jeg synes ikke, at hverken Netflix eller "Anonymous Netflix" vi debatterer bør stå til ansvar for, at brugerne frit på andre forums frigiver de samme, eller meget nært beslægtede informationer til offentlig skue.

Burde Netflix have udleveret anonymiseret produktionsdata? selvfølgelig ikke. Var deres data personhenførbare? Ja, men kun kombineret med de samme oplysninger fra IMDb, som brugeren selv har gjort offentligt tilgængelige.

Privacy-by-design kan ikke tage hensyn til at brugeren bruger en helt anden tjeneste, hvor de samme oplysninger ligger, og disse oplysninger er personhenførbare.

  • 0
  • 0
#9 Bjarne Nielsen

Jeg synes ikke, at hverken Netflix eller "Anonymous Netflix" vi debatterer bør stå til ansvar for, at brugerne frit på andre forums frigiver de samme, eller meget nært beslægtede informationer til offentlig skue.

Både og. Det kan ikke være rigtigt, at fordi jeg vælger at fortælle verden om en mindre, velvalgt og målrettet delmængde af mine præferencer, at så bliver alle mine præferencer blotlagt som værende mine. Det er et forkert design.

  • 0
  • 0
#10 Christoffer Kjeldgaard

Både og. Det kan ikke være rigtigt, at fordi jeg vælger at fortælle verden om en mindre, velvalgt og målrettet delmængde af mine præferencer, at så bliver alle mine præferencer blotlagt som værende mine. Det er et forkert design.

Jeg kan se pointen, dog:

Der vil altid være mulighed for at lave et kvalificeret gæt på at en delmængde af personer har udført handlingen, det kan ikke undgås, heller ikke med privacy-by-design. Spørgsmålet er nærmere at gøre det besværligt nok, og sørge for at så lidt data som muligt er komparativt. Eksempelvis kunne man have i den konkrete Netflix sag valgt at bruge et selvstændigt rating-system, der ikke var sammenkoblet med IMDb, og samtidigt kryptere timestamps på hvornår indholdet er tilgået med brugerens private nøgle.

Det er altid en afvejning mellem convenience og security / privacy.

  • 0
  • 0
#11 Bjarne Nielsen

Det er altid en afvejning mellem convenience og security / privacy.

Mens vi diskuterede, gik det op for mig, at jeg egentlig ikke kendte definitionen på "Privacy by Design"; det er jo ikke nok, at jeg selv synes at jeg har en meget god ide om, hvad det kunne være. Det viser sig at være en noget tynd kop the (det bliver det ikke mindre vigtigt af; jeg havde bare forventet mig mere). Navnet siger faktisk langt det meste.

Men der er et apropos til ovenstående. Her er lidt af kommentaren til det 4. grundlæggende princip:

Privacy by Design avoids the pretense of false dichotomies, such as privacy vs. security, demonstrating that it is possible to have both.

Så ophavskvinden er tydeligvis ikke enig i, at der altid vil være en afvejning. Jeg tror at det er en vigtig pointe; det er nemt at give op, og tænke, at man ikke kan have begge dele, men tænk igen. Og endnu vigtigere er det ikke at give for hurtigt op, når det man afvejer er egne fordele imod andres privacy/security.

  • 0
  • 0
#12 Bjarne Nielsen

Der vil altid være mulighed for at lave et kvalificeret gæt på at en delmængde af personer har udført handlingen, det kan ikke undgås, heller ikke med privacy-by-design. Spørgsmålet er nærmere at gøre det besværligt nok, og sørge for at så lidt data som muligt er komparativt.

Ah, en afvejning af, om besværet ved at erhverve sig kendskab står mål med indsatsen? Det giver mening. Husk bare, at det ikke kun er en gennemsnitsbetragtning; man skal også kunne modstå f.eks. en hævngerrig rigmand villig til at ansætte flere "investigative journalists" i længere tid, for at finde smuds på en bestemt politiker (som nogen antyder, at vi ser et eksempel på i England lige nu).

Jeg synes også, at jeg ser mange eksempler på to antagelser, som jeg ikke er sikker på holder:

  • Den ene er, at man er nødt til at indsamle personhenførebare oplysninger, og samle dem per person, for derefter at "anonymisere" dem ved at hashe id'er eller lign.
  • Den anden er "pokemon"-effekten: man føler at man er nødt til at indsamle alt om alle, for at data kan have værdi.

Vi fik bl.a. opgaven at lave et system, som kunne finde svar på "Folk, der lige som dig så film X, så også film Y". Behøver vi virkelig at kunne genkende personen bagved fra gang til gang, og behøver vi virkelig at indsamle alt om alle?

Det tror jeg så ikke. Hvis bare vi har nok observationer på (X,Y), så tror jeg for det første ikke på, at man behøver at kunne sammenkæde de enkelte observationer på individniveau; de kan være helt anonyme fra starten af.

For det andet, så behøver vi ikke kende alle (X,Y) for et individ, faktisk behøver vi ikke kende ret mange, hvis bare der er individer nok. De vigtige sammenhænge skal nok skinne igennem, også selvom vi måske ikke opdager at der er en enkelt, som har set både Teletubbies og Star Wars (for det er alligevel ikke vigtigt).

En totaltælling giver ikke markant bedre resultater end en solid stikprøve, hvis man leder efter det store billede.

  • 0
  • 0
#13 Christoffer Kjeldgaard

Så ophavskvinden er tydeligvis ikke enig i, at der altid vil være en afvejning. Jeg tror at det er en vigtig pointe; det er nemt at give op, og tænke, at man ikke kan have begge dele, men tænk igen.

Jeg tror du misforstod hvad jeg skrev, jeg skal prøve at gøre det klarere:

Det er en afvejning mellem:

convenience vs security convenience vs privacy

= convenience vs security / privacy

Jeg siger ikke, at sikkerhed kommer på bekostning af sikkerhed, tværtimod.

  • 0
  • 0
#15 Bjarne Nielsen

Jeg siger ikke, at sikkerhed kommer på bekostning af privatliv, tværtimod.

Nu var hendes advarsel ikke kun om den konkrete modstrid; det var bare et eksempel, og ikke et særligt godt et, hvis du spørger mig. Jeg læser det mere som en advarsel imod at starte med antagelsen om, at der er naturlige modstridigheder.

Dermed ikke sagt, at man ikke kan blive nødt til at lave sådanne afvejninger på et tidspunkt; jeg savner bare at man gjorde sig langt mere umage med at lede efter veje til både at fremme ens formål og samtidigt sikre at man ikke derved afslører mere om nogen end hvad man ellers ved.

Og når man kommer til det punkt, hvor man føler at man er villig til at tage chancer med mit privatliv for at fremme et formål man selv føler attråværdigt, så ville jeg gerne se flere proportionalitetsovervejelser. Og jeg ville virkelig gerne have, at der var en passende kyndig og uvildig tredjepart, som man skulle konsultere. For man er ikke habil, når man selv har noget at vinde, og andre noget at tabe.

  • 0
  • 0
Log ind eller Opret konto for at kommentere