Logging done right

OK, der bliver skrevet en masse artikler om redegørelsen fra Justitsministeriet - og undskyld jeg arbejder idag, så har ikke læst den. :-)

men hvad er det egentlig man vil med logningen?

Svaret er kort og simpelt - en gennemgribende analyse af alle danskeres elektroniske liv, uanset om de har begået kriminalitet. Den våde drøm i toppen er at alt logges. Punktum.

Pro tip: Det giver ikke mening at logge alt fra alle til alle, slet ikke når datamængderne og vores brug af internet vokser så voldsomt som det gør.

Her plejer jeg at hive diverse statistikker frem og I kan selv vælge hvem I vil stole på, men man finder ret hurtigt citater som:

som når man dykker ned indeholder statistik som:

-- quote on --

Annual global IP traffic will surpass the zettabyte threshold (1.3 zettabytes) by the end of 2016. In 2016, global IP traffic will reach 1.3 zettabytes per year or 110.3 exabytes per month.

Global IP traffic has increased eightfold over the past 5 years, and will increase threefold over the next 5 years. Overall, IP traffic will grow at a compound annual growth rate (CAGR) of 29 percent from 2011 to 2016.

In 2016, the gigabyte equivalent of all movies ever made will cross global IP networks every 3 minutes. Global IP networks will deliver 12.5 petabytes every 5 minutes in 2016.

The number of devices connected to IP networks will be nearly three times as high as the global population in 2016. There will be nearly three networked devices per capita in 2016, up from over one networked device per capita in 2011. Driven in part by the increase in devices and the capabilities of those devices, IP traffic per capita will reach 15 gigabytes per capita in 2016, up from 4 gigabytes per capita in 2011.

-- quote off --

Jamen, velkommen til vores virkelighed!

Jeg er selv internetudbyder og igang med at planlægge nyt setup som implementeres i Q2 2013. Dette setup ændrer vores netværk radikalt:

  • Firdobler vores routing kapacitet bits/sekund
  • 6-dobler antallet af distributionsporte til kunder - allesammen 10Gbit
  • Fordobler antallet af "core enheder" på vores primære lokation

og vi er en lille fisk i søen ... og dette setup bliver også for småt en dag.

Hvis man tager en standard router som smider op til 1Gbit traffik igennem kan den snildt generere 100Gb logdata om året (Netflow v5 og faktiske tal fra en router). Data som vel og mærke skal være på RAID, laves backup af, som skal kunne trækkes ud - og naturligvis skal der være nogle maskinresourcer til at opsamle og behandle det. Vi klarer det stadig på nogenlunde almindelige servere, men det begynder at være data warehousing.

Det vi har idag er altså samplede data - hvilket er super for mig som netværksadministrator, statistisk set kan jeg se hvad der foregår, men specifikke data om en enkelt IP kan være svær at finde. Ligesom man ikke kan afkræfte at en bruger har besøgt eksempelvis version2.dk ud fra Netflow, fordi denne brugers data måske blot ikke er opsamlet.

Målret logningen

Det giver altså ikke mening at logge alt fra alle, håber det er tydeligt ovenfor - datamængderne, antal sessions, antal pakker pr sekund stiger eksplosivt.

Hvad skal man så gøre for at sikre beviser mod de kriminelle? Målret efterforskningen.

Istedet for at bruge et bundtrawl der hele tiden skraber efter data og kun giver ringere data skal man udvælge HVOR der logges, HVEM der logges, HVAD der logges - tal med en lærer om hv-ordene! Det er min klare forventning at for mange data er et minus for politiet OG det kan formentlig indimellem generere FOR mange spor og personer der skal følges op på - modsig mig gerne.

Det betyder at processerne for at initiere en logning skal være på plads, politiet skal kommunikere klart hvad de ønsker (og dermed ikke ønsker alle sessions til og fra google analytics måske og reklamenetværk). Politiet skal samtidig være istand til at modtage gængse datatyper fra branchen, punktum - I skal %€&!$ ikke begynde at kræve logdata i OIOXML eller tilsvarende.

Ved en målrettet indsats bliver datamængderne overskuelige og samtidig betyder det at vi nærmer os samme indgriben som vi idag oplever med aflytning af telefoner, hvor man udvælger et antal abbonnenter - og ikke bare optager alle samtaler i Danmark.

Lyder det helt hen i vejret? eller er I også trætte af at vi konstant skal mistænkeliggøres med logning, Kameraer (CCTV), visitationszoner, skat der går ud sammen med politiet for at trawle, snak om reelt enlige der ikke må holde hånd offentligt eller købe ind sammen?

STOP det kontrol og overvågningshelvede - afsat ressourcer til målrettet indsats!

Eksempel på målrettet logning

Jeg vil gerne have at I skimmer den PDF der findes på Junipers hjemmeside på adressen http://www.juniper.net//techpubs//en_US//junos//information-products//to...

Årsagen til dette er at den beskriver kravene til logning - herunder at det måske ikke er alle som skal vide hvad eller hvem der ledes efter (intercept function on the router must be visible only to authorized personnel) . Forskellige myndigheder skal måske heller ikke lytte med på hinanden (separation of different LEAs on the device).

Det er ikke den eneste løsning (og heller ikke perfekt) men den beskriver at der findes funktionalitet som konkret ved mistanke kan bruges til at logge traffik på pakkeniveau som kan bearbejdes. Yderligere giver dette mulighed for at logge mere information om indholdet af den mistænktes specifikke kommunikationen (som dog jævnligt vil være krypteret) - man kan se indholdet af pakkerne. I det konkrete tilfælde ville en politienhed kunne starte logningen mere effektivt og få et brugbart resultat.

Jeg bruger ikke Juniper, men Bambus 7000 som router og OpenBSD/Linux/Vyatta/NetBSD/FreeBSD...

Hvis man ikke bruger den fancy flow-tap vil alle enheder med respekt for sig selv, routere/switche/server der router, kunne spejle trafik og derved målrettet sortere bestemt trafik fra og gemme dette til analyse med diverse værktøjer. ... og hvis politiet ikke engang kender tcpdump og libpcap står det skidt til i Danmark :-D.

Jura og juridiske spidsfindigheder

Jeg har ikke skrevet noget om opfølgning og jura IANAL og alt det der. Jeg synes dog det er betænkeligt at Stasi Lene kunne få lov til at indføre en gennemgribende logning af hele Danmark som over en årrække ikke engang revideres jævnligt, mens andre medier er harme over at enkeltpersoner overvåges med telefonaflytning.

NB: Jeg er også harm over at telefonaflytninger ikke bliver taget mere seriøst i Danmark, men endnu mere forundret over at i den digitale sfære er der frit slag for bundtrawl-logning.

Sig fra overfor logning, den bruges sjældent, den koster og vi betaler - STOP IT!

Kommentarer (10)
Kaj Nielsen

Jeg er til dels enig med Henrik, en målrettet indsats er hvad der er behov for, jeg er dog sammentidig klar over at politiet eller andre myndigheder kan have behov for at kunne kigge i historisk data. Derfor ville mit forslag være rullende logfiler, så der ikke skal gemmes i 5 år, men ét år, langsom overskrivning af alle logfiler som myndighederne ikke eksplicit har udpeget. Når en sådan udpegning så sker, skal infrastrukturen og processerne være på plads til at foretage den type af logninger som myndighederne ønsker. Jeg mener endvidere at det offentlige Danmark afholde ISP'erne for alle udgifter ud over logning af 'standard' trafikken.

Mogens Ritsholm

Meningen med logningen er, at teleselskaberne skal gemme deres oplysninger en vis periode i stedet for at smide dem væk med det samme. Det er så blevet overfortolket - specielt med sessionslogning.

Hvis en person så bliver mistænkt eller offer, kan politiet rekvirere oplysningerne for at danne sig et billede af omgangskreds, færden mv. Men de kan kun få de specifikke oplysninger for de pågældende.

Selvsagt kan man ikke på forhånd udpege særlig interessante oplysninger. For hvem bliver offer og hvem bliver mistænkt ? Det blev overvejet at sortere i sessionslogninger, så irrelevante poster kunne frasorteres (f.eks. streaming adresser). Men det bliver hurtigt mere belastende end at opbevare det hele i en flad fil.

Det Kramshøj kommer ind på, er noget helt andet. Nemlig vodfiskeri efter interessant kommunikation, som kan være udtryk for noget kriminelt. Det minder mere om det svenske FRA end logning. Bemærk, at svenskerne har både FRA og logning - dog ikke sessionslogning.

Så hvis I foreslår det, vil svaret let blive: Ja tak, det vil vi også gerne have. Men det erstatter ikke vores behov for logning.

Så forslaget er sådan set mere "logning done wrong".

Peter Mogensen

"Jeg synes dog det er betænkeligt at Stasi Lene kunne få lov til at indføre en gennemgribende logning af hele Danmark"

Var historien ikke også at det havde hun faktisk lidt svært ved og så erklærede hun at hvis hun ikke fik det ordnet i DK, så tog hun blot til EU og fik det gjort gennem et direktiv ?

Jesper Lund

Det Kramshøj kommer ind på, er noget helt andet. Nemlig vodfiskeri efter interessant kommunikation, som kan være udtryk for noget kriminelt. Det minder mere om det svenske FRA end logning. Bemærk, at svenskerne har både FRA og logning - dog ikke sessionslogning

Det kræver bare et par ekstra paragraffer i retsplejeloven for at politiet kan begynde at lave data-mining efterforskning på vores internettrafik, for eksempel at lave "undringslister" med borgere der besøger bestemte suspekte websites.

Datagrundlaget ligger der allerede. Det skal bare bruges noget mere, og på en anden måde end i dag. Justitsministeriet plejer ikke at holde sig tilbage med at foreslå mere logning fordi formålet med den eksisterende logning ellers ville forspildes (læs deres notat fra juni 2011 om personregistrering på offentlige hotspots, der reelt er den sessionslogning "helt tæt på personen" som de drømmer om i det seneste notat fra december 2012).

Vi har allerede data mining efterforskning på teledata i retsplejeloven i form at udvidet teleoplysning, hvor politiet får udleveret oplysninger om helt uskyldige borgere uden at der er nogen konkret mistanke mod dem.

Logging done right er oplysninger som kun gemmes kortvarigt og med konkrete formål som at beskytte en webserver mod angreb. Når man har konstateret at der ikke var nogle angreb, bør alle potentielt personhenførbare oplysninger anonymiseres eller direkte slettes, eventuelt efter at være blevet aggregeret til en statistik som man kan bruge til kapacitetsplanlægning eller andre legitime formål som ikke indebærer overvågning af personer.

Hvis man logger oplysninger til et ubestemt formål, fordi de måske kunne blive interessante for andre (politiet) engang, inviterer man selv til en glidebane af misbrug der ender langt udover hvad George Orwell kunne forestille sig da han skrev "1984".

Jesper Lund

Jeg er til dels enig med Henrik, en målrettet indsats er hvad der er behov for, jeg er dog sammentidig klar over at politiet eller andre myndigheder kan have behov for at kunne kigge i historisk data.

Hvorfor skal politiet have denne mulighed, bare fordi det er teknisk muligt og måske kan være nyttigt for dem engang i mellem?

I DDR skulle Stasi bruge fysiske agenter for at overvåge borgerne, hvilket gjorde det umuligt at overvåge hele befolkningen hele tiden. Den teknologiske udvikling har løst dette problem, så det i dag er nemt og billigt for staten at overvåge hele befolkningen hele tiden.

Masseovervågning sker på bekostning af vores frihedsrettigheder, især retten til privatliv. Hvis vi bare accepterer overvågning fordi det er teknisk muligt, tilpas billigt, og måske kan være nyttigt for politiet, har vi reelt givet afkald på vores frihedsrettigheder i forhold til staten.

Vi kan ikke beskytte vores frihed ved at afskaffe vores frihed. En eventuel terrortrussel fra Al Queda skal ikke imødegås ved at staten med overvågning terroriserer borgerne langt mere end hvad Al Queda nogensinde vil være i stand til.

Henrik Kramshøj Blogger

Det blev overvejet at sortere i sessionslogninger, så irrelevante poster kunne frasorteres (f.eks. streaming adresser). Men det bliver hurtigt mere belastende end at opbevare det hele i en flad fil.

Ja og nej

Idag er der undtagelser fra logningen, og man skal ikke være specielt klog kriminel eller terrorist for at sikre at ens trafik kommer ind under disse undtagelser. Ligeledes ville enhver sortering betyde at man kunne gå efter at ens trafik ville blive sorteret fra.

Eksempelvis ville det give god mening at sortere en del krypteret trafik fra - fordi en VPN tunnel som den jeg selv bruger sender alt trafik gennem tunnel. Dvs væk med IPsec, væk med OpenVPN trafik, (væk med IPv6 måske endda? det tager nok 5 år før IPv6 er med i deres overvejelser?). Måske var krypteret trafik kun en lille procentdel tidligere, men så vidt jeg kan se er MANGE websites efterhånden skiftet til HTTPS.

Når du skriver "mere belastende end at opbevare det hele i en flad fil" så er det jo vigtigt at 1) det hele er i denne forbindelse kun enkelte data fra sessioner/trafik typisk headerinformation og antal bytes m.v. 2) Det ER en stor belastning at både opsamle, opbevare og behandle disse data - samt overføre dem sikkert til 3. part (politiet). Så vi snakker gradbøjninger af muligt, brugbart og realistisk.

Så jeg er stærkt modstander af wholesale datawarehousing af vores data som middel mod terrorisme og alskens anden ondskab - modsig mig gerne med konkrete eksempler på at 9/11 blev forhindret fordi der var effektiv behandling og sammenstilling af data til noget fornuftigt - det sker i praksis ikke.

NB: der findes gode eksempler på at data warehousing indenfor snævre brugsituationer virker godt. Mit primære eksempel som jeg for nyligt bruger er Target der ved hvornår folk er gravide, måske endda før dem selv, eller før resten af familien. Læs eksempelvis: http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-ou...

Selv i mindre skala, hvor jeg gerne vil kunne fange diverse indbrud på vores servere, angreb mod vores servere, angreb FRA vores servere kommer jeg ofte til kort, fordi det kræver et større analysearbejde. Det er således ikke KUN opsamlingen og opbevaringen der giver problemer, det er også væsentligt at man skal kunne udvikle nye analysemetoder og algoritmer hurtigere end idag.

Så i eksemplet, dagens standard, hvor der opsamles en hel masse data vil det være nødvendigt at analysere det med henblik på "dagens trusselsbillede" - hvilket vil kræve alt for mange ressourcer i forhold til udbyttet - er min personlige mening. FRA og de andre bruger altså voldsomt mange ressourcer og jeg tvivler på man af den årsag bør føle sig mere tryg.

Forretningsmodellen for wholesale logning er ikke til stede som jeg ser det. Der mangler en præcis problemformulering, hvad man vil opnå, istedet for glæden over det "nye instrument" som man tror kan alt. (Morten Bødskov sagde i DR igår aftes "Det er et nyt instrument" WTF?! 5+ år er nyt?)

Der skal altså være en åben og transparent process til evaluering af indsatsen og udbytte - hvilket pt. bliver udskudt igen og igen i Danmark. Føj det lugter af mangel på ansvar fra politisk side. Det bliver bortforklaret og udvidet uanset man ikke kender resultaterne - vi kender resultatet. Resultaterne af logning i Danmark er enkelte sager hvor logningen måske har givet en lille bitte effekt. En tilsvarende henvendelse til mistænktes internetudbyder eller henvendelse til websites som det drejede sig om - ville give det samme for en procentdel af prisen (promille?).

Et andet modeksempel mod den generelle opbevaring er naturligvis også altid at data som opsamles bliver misbrugt, punktum. Det er et fakta at data som er til stede, uanset grunden til at de findes, vil blive forsøgt brugt til andre formål. Det betyder at vi ikke blot skal stole på de nuværende politikere, men dem allesammen i al fremtid.

Der er efterhånden skræmmende mange eksempler på at uautoriseret adgang til data bliver misbrugt af personer som vi ellers har givet betroet adgang. Ref sager med politifolk og kommunalt ansatte som surfer på persondata, og Anna Lindh sagen i Sverige hvor der skete omfattende misbrug af adgange til data.

Jesper Lund

Eksempelvis ville det give god mening at sortere en del krypteret trafik fra - fordi en VPN tunnel som den jeg selv bruger sender alt trafik gennem tunnel. Dvs væk med IPsec, væk med OpenVPN trafik, (væk med IPv6 måske endda? det tager nok 5 år før IPv6 er med i deres overvejelser?). Måske var krypteret trafik kun en lille procentdel tidligere, men så vidt jeg kan se er MANGE websites efterhånden skiftet til HTTPS

I forhold til pligtlogningen efter logningsbekendtgørelsen kan jeg ikke se nogen forskel mellem at logge krypteret og ikke-krypteret trafik. Det som skal logges er IP (src/dest), port (src/dest), protokol (tcp/udp/m.v.) og timestamp info (start/slut hvis der logges "sessioner", whatever that is, i stedet for statistisk sampling af hver 500. pakke). Der logges ikke noget om pakkens payload udover dette, så om payload er læsbar eller krypteret gør ingen forskel.

Hvis ISP'erne skulle lave DPI eller anden pakke sniffing (som URL registrering ved HTTP) på al deres trafik, ville det utvivlsomt koste mere end 50 mill om året.

Men disse oplysninger er rigeligt til at underminere din ret til privatliv. Registrering af IP adresser vil f.eks. kunne fortælle staten hvilke politiske partier som du interesserer dig for (medmindre du "nøjes" med at besøge partiernes Facebook side, men det har andre ulemper).

Baldur Norddahl

Rapporten nævner eksempler som den dumme forbryder, som tager turen rundt fra hæveautomat til hæveautomat med en mobiltelefon i lommen. Uden at have nogen konkrette mistænkte kan politiet så lave datamining og finde frem til mobiltelefonen.

Den våde drøm er naturligvis at gøre det samme med data fra internetovervågningen. Undskyldningen for at det ikke er lykkedes er dels problemer med at indlæse data og dels at metoden med at logge hver 500. pakke ikke dur.

Jeg vil så påstå at der nok ikke var kommet noget nyttigt ud af det selvom data kunne indlæses problemfrit og såfremt internetudbyderne havde implementeret logning af SYN-pakker. Der er simpelthen ikke en klar "hæveautomat"-forbrydelse der kan opklares på denne måde.

Kristian Klausen
Log ind eller Opret konto for at kommentere