Én medarbejder hos politiet holdt styr på 100 forskellige dataformater inden teledata-skandale

Illustration: MI Grafik
Forældet it og kæmpe format-forvirring i politiets Telecenter, der er centralt i den nationale indsamling af telefonisk bevismateriale, gødede jorden for årelang serie af fejl.

Når politiet indhentede data fra teleselskaberne op til teledataskandalen fik man data tilbage i mere end 100 forskellige formater mellem 2011 og 2019. Herunder 30 forskellige dato-formater. Til at sikre konsistens og validitet af de mange teledataformater havde Rigspolitiets Teledatacenter kun én medarbejder.

For at gøre ondt værre tjekkede de politikredse, der skulle bruge data, ikke selv validiteten af de data, de fik fra Rigspolitiets Teledatacenter før 2018, men tog de fejlbehæftede data for gode varer, selvom datasættene var beviseligt fejlbehæftede og mangelfulde.

Læs også: Få overblikket i Rigspolitiets teleskandale

Sådan lyder konklusionen i en ny, videnskabelig artikel udarbejdet i samarbejde mellem adjunkt på Aarhus Universitet Lene Wacher Lents og overpolitibetjent Nina Sunde fra den norske Politihøjskole.

Læs også: Justitsminister: Derfor skal ingen fyres efter teleskandalen

Rapporten forsøger at samle op fra de danske mediers undersøgende dækning af sagen tilbage i 2019 samt fra de uvildige rapporter om emnet, som konsulentfirmaet Deloitte har lavet.

»Forældede it-systemer udgør trussel mod fortsat drift«

Og én ting er de mange dataformater, der i høj grad forvirrede Rigspoltiets systemer. Systemerne, teleselskabernes indsamlede data blev født ind i var også et problem i sig selv.

»Skandalen er også relateret til utilstrækkelige og forældede it-systemer i det danske politi generelt og herunder især Teledatacentret. Den uvildige undersøgelse vurderer på foruroligende vis, at forældet, teknisk infrastruktur udgør en reel trussel mod den fortsatte drifts-stabilitet.«

Læs også: Fyringer i Rigspolitiets it-enhed skaber frygt for flere it-skandaler

»Herunder mod fortsat at kunne levere konverterede teledata,« lyder det i den videnskabelige artikel, der fortsat citerer den uvildige undersøgelse:

»Selv de efterfølgende tiltag for at forbedre den eksisterende infrastruktur er utilstrækkelige. Der er behov for at implementere en helt ny infrastruktur, der lever op til moderne standarder.«

Mangelfulde procedurer til datahåndtering

Med et mangelfuldt it-setup og kun én ansat, der fokuserer på at opdage og kompensere for de fejl, der måtte opstå, kunne gode procedurer have hjulpet betydeligt, men:

»Den uvildige undersøgelse nævner specifikt, at der ikke var blevet udviklet nogle skrevne, interne procedurer i forhold til behandlingen af historiske teledata i Telecentret. Ligeledes har Rigspolitiet ikke udviklet en eneste, national guideline for brugen eller kontrollen af historiske teledata,« skriver forskerne.

Læs også: Politiet bruger ulovligt indsamlede teledata mere end 11 gange om dagen

Først i 2018 udkommer der retningslinjer, der instruerer politikredsene i at gå datasættene efter i sømmene.

Upræcise til brug i retten

Derudover opsummerer rapporten, hvorfor teledata er upræcise, selv hvis de bruges korrekt. Det skyldes især tre omstændigheder:

For det første er det risikobehæftet at vurdere lokation af en mistænkts mobil ud fra mastedata. Det skyldes, at master flyttes fra tid til anden, og det er ikke altid, det registreres ordentligt, når det sker.

Læs også: Rigspolitiet betaler teleselskaber millioner om året for masse-logning af danskerne

For det andet er historiske teledata i sin grundform ikke indsamlet med henblik på at blive brugt som retslige beviser, men for at hjælpe teleselskaberne med at danne forretningsmæssigt overblik.

»Derfor indebærer de begrænsninger og usikkerheder, der skal tages i betragtning, når man bruger dem som beviser for, hvem der gjorde hvad på et givent tidspunkt (og over hvor lang tid), samt hvor det foregik,« hedder det i den videnskabelige artikel.

Sidst men ikke mindst har telefonmasterne antenner, der dækker forskellige områder, kaldet celler, skriver forskerne. Hver celle har et ID og to beskrevne egenskaber, der er centrale for vurderingen af, hvor en mobil befinder sig i forhold til masten; dækning og kapacitet.

Men der er mange faktorer, der definerer dækningen og kapaciteten:

»Disse begrænsninger betyder, at det aldrig er 100 procent sikkert, at en given mobil var på det sted og på det det tidspunkt, de historiske teledata påstår,« Skriver Lene Lentz og Nina Sunde.

Læs også: Tre udskydelser og en tavs regering: Her er tele-logningssagen fra A til Z

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (14)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Nis Schmidt

Når politiet indhentede data fra teleselskaberne op til teledataskandalen fik man data tilbage i mere end 100 froskellige formater mellem 2011 og 2019. Herunder 30 forskellige dato-formater.

Det minder mig om dengang et dengang anerkendt internationalt computerfirma fik fælles system til kaldbehandling.

Dengang hed er lille matrixprinter f.eks. LA50, men i kalddatabasen havde den 15-20 forskellige navne. Ingen havde tænkt på, forudfastsætte dens navn i databasen.

Man kunne enten have fastlagt ét format til teledatalogs eller have sat en studentermedhjælp til at udvikle et konverteringsprogram til at ensrette formaterne.

Vi fandt en løsning til engangskald: vi skrev HW, SW og ANDET på sedler i tre farver og så talte jeg sedler en gang om måneden. Jeg harså et lille program, hvor jeg indtastede 3 tal, så stod det et par timer og "loggede kald" i databasen ;-)

  • 3
  • 0
#2 Mogens Ritsholm

Telelogning indebærer, at teleselskaber skal bevare dannede data, som de er, i en periode i stedet for straks at smide dem ud.

Det ville jo være nemmere for politiet, hvis teleselskaberne omsatte til et fælles format, når data udleveres.

Men det er uden for rammen i den gældende ideologi, der som sagt alene kræver opbevaring og udlevering som data er.

Også ved andre udleveringer af data fra IT-systemer efter en editionskendelse skal data udleveres som de er.

Og det vil nok bringe data endnu længere ud i sumpen at kræve konvertering..

For selvfølgelig vil der også kunne opstå fejl og mangler, hvis teleselskaberne skal konvertere. Og i visse tilfælde vil det være umuligt, fordi teknisk udvikling omdefinerer og ændrer naturen af de loggede data, så de ikke uden videre kan omsættes til en tidligere fastsat norm.

Og så vil vi for alvor være på herrens mark med retssikkerheden.

Nej. Politiet skal have data, som de er. Og så må de selv omsætte dem og tolke dem som en politimæssig opgave.

Artiklen får desværre ikke fat i det væsentlige ved politiets problemer med data.

Sandheden er, at der sjældent er vanskeligheder med politiets anvendelse af de data, der skal logges efter logningsbekendtgørelsen.

Men Politiet og teleselskaberne har bevæget sig langt ud over det lovlige område for telelogning, bl. a. ved logning af celleoplysninger ved en mobils dataforbrug og brug af data fra det interne signaleringssystem.

Så er det klart, at mængden af formater og definitioner for data eksploderer og skaber en forringet retssikkerhed.

Så løsningen er enkel:

Hold jer til reglerne

  • 7
  • 3
#6 Anders Munch

100 formater lyder af meget, men det er det faktisk ikke.

Det er jo ikke de store komplicerede formater vi snakker om, det er formentlig bare CSV og XML i en masse varianter som ligner hinanden til forveksling.

Hvis bare det bliver automatiseret, både på producent- og modtagerside, så er der ikke noget i det.

Jeg har siddet med en tilsvarende opgave i en del år, omend på den producerende side, ikke den modtagende. Det har jeg sagtens kunnet klare uden at være nogen form for jonglør.

To steder der kan opstå problemer:

  • Manglende automatisering. Hvis producenten ikke automatiserer, men i stedet gør et eller andet ad-hoc, fx i Excel eller med et database-rapporteringsværktøj, så er man aldrig sikker på at få det samme to gange i træk.
  • Manglende validering: 1 person kan sagtens udvikle understøttelse af 100 formater, men det er nødvendigt at der kommer andre øjne på inden noget går i produktion.
  • 7
  • 0
#7 Baldur Norddahl

Jeg blev engang bedt om at bistå med en aflytning af internettrafik. Det er anden lovgivning men princippet er det samme. Jeg leverede data som pcap lige til at tage ind i wireshark. Men det kunne de ikke læse.

Hvis princippet er at jeg skal levere data præcis som data behandles af nettet, så er det et bogus princip. Nettet gemmer ikke trafik på en disk normalt og nettet har ikke noget naturligt format andet end en ethernet frame, som ikke er et dataformat til disk. Pcap er det der kommer tættest på at gemme de rå ethernet frames med minimum af ekstra information tilføjet, dvs timestamp. Timestamp er i øvrigt heller ikke noget nettet normalt beskæftiger sig med.

Men nu kunne de så ikke håndtere pcap. Man forventede netflow det havde de bare ikke sagt. Det er der i øvrigt heller ikke et standard filformat til.

Det vil være at foretrække hvis de lavede en manual med foretrukne formatter. Det kommer alligevel i praksis ikke direkte fra kilden, så kan ligeså godt udvikle løsninger der passer med det de forventer.

Hvis de vil have det direkte fra kilden, så må de opsætte en netflow collector. Og sflow og gre etc.

  • 5
  • 0
#8 Poul-Henning Kamp Blogger

Manglende automatisering

Det var præcis derfor jeg vil vide om han faktisk "holdt styr på", eller om han gættede sig frem.

Det er bestemt ikke nok at man "sagtens kan se" at den kollone er længdegrad, den ved siden af er breddegrad og en tredje er timestamp, der skal være styr på koordinatsystemer og tidszone der bruges.

Specielt mht. koordinattransformation er det slet ikke noget der realistisk kan gøres i et regneark.

  • 10
  • 0
#9 Klavs Klavsen

Nej. Politiet skal have data, som de er. Og så må de selv omsætte dem og tolke dem som en politimæssig opgave.

Nej tak. Det forudsætter at han automatisk kan opdage at den kolonne der var "breddegrad" i går - ikke længere er det (hvis en teleudbyder har lavet om på formatet).

Der er som minimum nødt til at være en klar aftale om PRÆCIS HVAD der leveres fra den enkelte teleudbyder. Formatet skal helst også indeholde en måde at verificere den enkelte linie.. en checksum eller andet (stemmer checksum'en ikke- ved man at ens opfattelse og teleudbyderens opfattelse er forskellig og man skal spørge).

Hvis der er det - så er jeg enig i at det er bedst at politiet selv skriver parseren der indlæser disse data i det aftalte format og indlæser til et fælles format politiet anvender for alle teleudbydere.

  • 5
  • 0
#10 Mogens Ritsholm

Hvis princippet er at jeg skal levere data præcis som data behandles af nettet, så er det et bogus princip. Nettet gemmer ikke trafik på en disk normalt og nettet har ikke noget naturligt format andet end en ethernet frame, som ikke er et dataformat til disk

Det er samme lovgivning, da både aflytning og teleoplysninger er dækket af samme afsnit i telelov og retsplejelov.

Men teleoplysninger via logning er som udgangpunkt et krav om at gemme oplysningernesom de er med henblik på evt. senere udlevering til politiet.

For aflytning er kravet, at udbyderen skal kunne hjælpe politiet med at foretage aflytning. Men metoden er ikke fastlagt, da forudsætningerne er meget forskellige hos små og store udbydere. Udbyderen må bare ikke sige, at det ikke kan lade sig gøre.

De store teleselskaber laver aflytning med online overførsel af det aflyttede til telecenteret. Der findes visse internationale standarder og de facto standarder herfor. Men metoden er aftalt på forhånd mellem politiet og udbyderen.

For små udbydere aftales fremgangsmåde fra gang til gang, da der ikke er så mange aflytninger af internet.

  • 1
  • 1
#11 Torben Rasmussen

Nogen burde give en pris til den stakkel, som har været alene med en utaknemmelig opgave. Vedkommende er vel en fighter.

Minder lidt om "Svend" i udbytteskattesagen. Mange taler om den store stygge stat, men det er lille DK, og ofte er der altså kun een person på posten, når vi kommer ud i det udførende lag.

  • 1
  • 0
#13 Mogens Ritsholm

Der er som minimum nødt til at være en klar aftale om PRÆCIS HVAD der leveres fra den enkelte teleudbyder

Selvfølgelig er der sådanne aftaler. Jeg tror oven i købet, at der fremvsendes eller henvises til en specifikation ved hver udlevering. Også oversigt over masteplaceringer på logningstidspunktet udleveres. Det er simpelthen en del af logningskravene.

Fejl kan selvfølgelig forekomme både i informationen og forståelsen af data. . Men jeg tror, at det er sjældent.

Derimod har teleselskaber og politi siden 2011 kastet sig ud i logning af internetbrug fra mobil uden for reglerne. Og siden også data fra sem systemspecifikke interne signalering.

Og selv om konsulent rapporten forsøgte at skjule det ( de sagde, at der var forskellige former for logning), er det i disse uregulerede udleveringer siden 2011, at det oiftest er gået galt.

Dybest set er den situation fremkaldt af, at man ikke har opdateret reglerne med den teknologiske udvikling

  • 1
  • 0
#14 Andrew Rump

Et entry: to telefonnumre, en mast og et tidsrum. Det giver ca 0,8 formater per selskab per år. Helt uoverskueligt!

Det er nemt nok - hvis man ikke har prøvet det før - men når man først får fingre ned i data, så eksploderer opgaven lige pludselig.

Telefonnumrene kan i sig selv være i forskellige formater. F.eks. kan landekode og selve telefonnummeret være gemt i 2 felter eller i samme felt - og så skal man have en tabel, for at kunne skille dem ad.

Tidsrum er meget bredt defineret: Snakker vi lokal(sommer)tid, UTC, GMT, ..., Unix Epoch time?

Og master - det er nok et kapitel helt for sig: lokationen kan f.eks. være længde- og bredde-grader (WGS84?) eller Krak-koordinater eller ...? Og hvad er hvad: 55.6969478, 12.4811567 eller er det 12,4811567, 55,6969478? Der er flere mastedatasager hvor de er blevet flyttet rundt eller det der er værre.

Og hver gang der sker en opdatering af softwaren - da den ikke tager hensyn til politiets brug - så kan formattet ændre sig!

Det kan hurtigt blive uoverskueligt.

  • 2
  • 0
Log ind eller Opret konto for at kommentere