Én medarbejder hos politiet holdt styr på 100 forskellige dataformater inden teledata-skandale

7. december 2020 kl. 03:4514
Én medarbejder hos politiet holdt styr på 100 forskellige dataformater inden teledata-skandale
Illustration: MI Grafik.
Forældet it og kæmpe format-forvirring i politiets Telecenter, der er centralt i den nationale indsamling af telefonisk bevismateriale, gødede jorden for årelang serie af fejl.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Når politiet indhentede data fra teleselskaberne op til teledataskandalen fik man data tilbage i mere end 100 forskellige formater mellem 2011 og 2019. Herunder 30 forskellige dato-formater. Til at sikre konsistens og validitet af de mange teledataformater havde Rigspolitiets Teledatacenter kun én medarbejder.

For at gøre ondt værre tjekkede de politikredse, der skulle bruge data, ikke selv validiteten af de data, de fik fra Rigspolitiets Teledatacenter før 2018, men tog de fejlbehæftede data for gode varer, selvom datasættene var beviseligt fejlbehæftede og mangelfulde.

Teledatasagen kort

I sensommeren 2019 blev det klart, at der var sket en række fejl i overleveringen af historiske teledata fra de danske teleselskaber til Politiet.

Disse data er blevet brugt i danske retssager som bevismateriale - i sær i forbindelse med at lokalisere en mistænkt.

Efterhånden som sagen skred frem blev det tydeligt, at der var tale om tusindvis af fejl.

Samt at teledata kan være utroligt upræcise - selv hvis de håndteres korrekt og sikekrt af politiet.

Kilde: Justitsministeriet

Sådan lyder konklusionen i en ny, videnskabelig artikel udarbejdet i samarbejde mellem adjunkt på Aarhus Universitet Lene Wacher Lents og overpolitibetjent Nina Sunde fra den norske Politihøjskole.

Rapporten forsøger at samle op fra de danske mediers undersøgende dækning af sagen tilbage i 2019 samt fra de uvildige rapporter om emnet, som konsulentfirmaet Deloitte har lavet.

»Forældede it-systemer udgør trussel mod fortsat drift«

Og én ting er de mange dataformater, der i høj grad forvirrede Rigspoltiets systemer. Systemerne, teleselskabernes indsamlede data blev født ind i var også et problem i sig selv.

Artiklen fortsætter efter annoncen

»Skandalen er også relateret til utilstrækkelige og forældede it-systemer i det danske politi generelt og herunder især Teledatacentret. Den uvildige undersøgelse vurderer på foruroligende vis, at forældet, teknisk infrastruktur udgør en reel trussel mod den fortsatte drifts-stabilitet.«

»Herunder mod fortsat at kunne levere konverterede teledata,« lyder det i den videnskabelige artikel, der fortsat citerer den uvildige undersøgelse:

»Selv de efterfølgende tiltag for at forbedre den eksisterende infrastruktur er utilstrækkelige. Der er behov for at implementere en helt ny infrastruktur, der lever op til moderne standarder.«

Mangelfulde procedurer til datahåndtering

Med et mangelfuldt it-setup og kun én ansat, der fokuserer på at opdage og kompensere for de fejl, der måtte opstå, kunne gode procedurer have hjulpet betydeligt, men:

Artiklen fortsætter efter annoncen

»Den uvildige undersøgelse nævner specifikt, at der ikke var blevet udviklet nogle skrevne, interne procedurer i forhold til behandlingen af historiske teledata i Telecentret. Ligeledes har Rigspolitiet ikke udviklet en eneste, national guideline for brugen eller kontrollen af historiske teledata,« skriver forskerne.

Først i 2018 udkommer der retningslinjer, der instruerer politikredsene i at gå datasættene efter i sømmene.

Upræcise til brug i retten

Derudover opsummerer rapporten, hvorfor teledata er upræcise, selv hvis de bruges korrekt. Det skyldes især tre omstændigheder:

For det første er det risikobehæftet at vurdere lokation af en mistænkts mobil ud fra mastedata. Det skyldes, at master flyttes fra tid til anden, og det er ikke altid, det registreres ordentligt, når det sker.

For det andet er historiske teledata i sin grundform ikke indsamlet med henblik på at blive brugt som retslige beviser, men for at hjælpe teleselskaberne med at danne forretningsmæssigt overblik.

»Derfor indebærer de begrænsninger og usikkerheder, der skal tages i betragtning, når man bruger dem som beviser for, hvem der gjorde hvad på et givent tidspunkt (og over hvor lang tid), samt hvor det foregik,« hedder det i den videnskabelige artikel.

Sidst men ikke mindst har telefonmasterne antenner, der dækker forskellige områder, kaldet celler, skriver forskerne. Hver celle har et ID og to beskrevne egenskaber, der er centrale for vurderingen af, hvor en mobil befinder sig i forhold til masten; dækning og kapacitet.

Men der er mange faktorer, der definerer dækningen og kapaciteten:

»Disse begrænsninger betyder, at det aldrig er 100 procent sikkert, at en given mobil var på det sted og på det det tidspunkt, de historiske teledata påstår,« Skriver Lene Lentz og Nina Sunde.

14 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
14
11. december 2020 kl. 11:14

Et entry: to telefonnumre, en mast og et tidsrum.
Det giver ca 0,8 formater per selskab per år. Helt uoverskueligt!

Det er nemt nok - hvis man ikke har prøvet det før - men når man først får fingre ned i data, så eksploderer opgaven lige pludselig.

Telefonnumrene kan i sig selv være i forskellige formater. F.eks. kan landekode og selve telefonnummeret være gemt i 2 felter eller i samme felt - og så skal man have en tabel, for at kunne skille dem ad.

Tidsrum er meget bredt defineret: Snakker vi lokal(sommer)tid, UTC, GMT, ..., Unix Epoch time?

Og master - det er nok et kapitel helt for sig: lokationen kan f.eks. være længde- og bredde-grader (WGS84?) eller Krak-koordinater eller ...? Og hvad er hvad: 55.6969478, 12.4811567 eller er det 12,4811567, 55,6969478? Der er flere mastedatasager hvor de er blevet flyttet rundt eller det der er værre.

Og hver gang der sker en opdatering af softwaren - da den ikke tager hensyn til politiets brug - så kan formattet ændre sig!

Det kan hurtigt blive uoverskueligt.

13
8. december 2020 kl. 16:25

Der er som minimum nødt til at være en klar aftale om PRÆCIS HVAD der leveres fra den enkelte teleudbyder

Selvfølgelig er der sådanne aftaler. Jeg tror oven i købet, at der fremvsendes eller henvises til en specifikation ved hver udlevering. Også oversigt over masteplaceringer på logningstidspunktet udleveres. Det er simpelthen en del af logningskravene.

Fejl kan selvfølgelig forekomme både i informationen og forståelsen af data. . Men jeg tror, at det er sjældent.

Derimod har teleselskaber og politi siden 2011 kastet sig ud i logning af internetbrug fra mobil uden for reglerne. Og siden også data fra sem systemspecifikke interne signalering.

Og selv om konsulent rapporten forsøgte at skjule det ( de sagde, at der var forskellige former for logning), er det i disse uregulerede udleveringer siden 2011, at det oiftest er gået galt.

Dybest set er den situation fremkaldt af, at man ikke har opdateret reglerne med den teknologiske udvikling

11
8. december 2020 kl. 12:18

Nogen burde give en pris til den stakkel, som har været alene med en utaknemmelig opgave. Vedkommende er vel en fighter.

Minder lidt om "Svend" i udbytteskattesagen. Mange taler om den store stygge stat, men det er lille DK, og ofte er der altså kun een person på posten, når vi kommer ud i det udførende lag.

10
8. december 2020 kl. 10:56

Hvis princippet er at jeg skal levere data præcis som data behandles af nettet, så er det et bogus princip. Nettet gemmer ikke trafik på en disk normalt og nettet har ikke noget naturligt format andet end en ethernet frame, som ikke er et dataformat til disk

Det er samme lovgivning, da både aflytning og teleoplysninger er dækket af samme afsnit i telelov og retsplejelov.

Men teleoplysninger via logning er som udgangpunkt et krav om at gemme oplysningernesom de er med henblik på evt. senere udlevering til politiet.

For aflytning er kravet, at udbyderen skal kunne hjælpe politiet med at foretage aflytning. Men metoden er ikke fastlagt, da forudsætningerne er meget forskellige hos små og store udbydere. Udbyderen må bare ikke sige, at det ikke kan lade sig gøre.

De store teleselskaber laver aflytning med online overførsel af det aflyttede til telecenteret. Der findes visse internationale standarder og de facto standarder herfor. Men metoden er aftalt på forhånd mellem politiet og udbyderen.

For små udbydere aftales fremgangsmåde fra gang til gang, da der ikke er så mange aflytninger af internet.

9
8. december 2020 kl. 09:30

Nej. Politiet skal have data, som de er. Og så må de selv omsætte dem og tolke dem som en politimæssig opgave.

Nej tak. Det forudsætter at han automatisk kan opdage at den kolonne der var "breddegrad" i går - ikke længere er det (hvis en teleudbyder har lavet om på formatet).

Der er som minimum nødt til at være en klar aftale om PRÆCIS HVAD der leveres fra den enkelte teleudbyder. Formatet skal helst også indeholde en måde at verificere den enkelte linie.. en checksum eller andet (stemmer checksum'en ikke- ved man at ens opfattelse og teleudbyderens opfattelse er forskellig og man skal spørge).

Hvis der er det - så er jeg enig i at det er bedst at politiet selv skriver parseren der indlæser disse data i det aftalte format og indlæser til et fælles format politiet anvender for alle teleudbydere.

8
8. december 2020 kl. 00:21

Manglende automatisering

Det var præcis derfor jeg vil vide om han faktisk "holdt styr på", eller om han gættede sig frem.

Det er bestemt ikke nok at man "sagtens kan se" at den kollone er længdegrad, den ved siden af er breddegrad og en tredje er timestamp, der skal være styr på koordinatsystemer og tidszone der bruges.

Specielt mht. koordinattransformation er det slet ikke noget der realistisk kan gøres i et regneark.

7
7. december 2020 kl. 22:17

Jeg blev engang bedt om at bistå med en aflytning af internettrafik. Det er anden lovgivning men princippet er det samme. Jeg leverede data som pcap lige til at tage ind i wireshark. Men det kunne de ikke læse.

Hvis princippet er at jeg skal levere data præcis som data behandles af nettet, så er det et bogus princip. Nettet gemmer ikke trafik på en disk normalt og nettet har ikke noget naturligt format andet end en ethernet frame, som ikke er et dataformat til disk. Pcap er det der kommer tættest på at gemme de rå ethernet frames med minimum af ekstra information tilføjet, dvs timestamp. Timestamp er i øvrigt heller ikke noget nettet normalt beskæftiger sig med.

Men nu kunne de så ikke håndtere pcap. Man forventede netflow det havde de bare ikke sagt. Det er der i øvrigt heller ikke et standard filformat til.

Det vil være at foretrække hvis de lavede en manual med foretrukne formatter. Det kommer alligevel i praksis ikke direkte fra kilden, så kan ligeså godt udvikle løsninger der passer med det de forventer.

Hvis de vil have det direkte fra kilden, så må de opsætte en netflow collector. Og sflow og gre etc.

6
7. december 2020 kl. 19:36

100 formater lyder af meget, men det er det faktisk ikke.

Det er jo ikke de store komplicerede formater vi snakker om, det er formentlig bare CSV og XML i en masse varianter som ligner hinanden til forveksling.

Hvis bare det bliver automatiseret, både på producent- og modtagerside, så er der ikke noget i det.

Jeg har siddet med en tilsvarende opgave i en del år, omend på den producerende side, ikke den modtagende. Det har jeg sagtens kunnet klare uden at være nogen form for jonglør.

To steder der kan opstå problemer:

  • Manglende automatisering. Hvis producenten ikke automatiserer, men i stedet gør et eller andet ad-hoc, fx i Excel eller med et database-rapporteringsværktøj, så er man aldrig sikker på at få det samme to gange i træk.
  • Manglende validering: 1 person kan sagtens udvikle understøttelse af 100 formater, men det er nødvendigt at der kommer andre øjne på inden noget går i produktion.
5
7. december 2020 kl. 14:42

Et entry: to telefonnumre, en mast og et tidsrum.

Det giver ca 0,8 formater per selskab per år. Helt uoverskueligt!

4
7. december 2020 kl. 14:05

Det skal i hvert fald være et ganske usædvanligt menneske, der skal kunne sådan noget.

At holde mange bolde i luften, er noget man kan gøre i cirkus.

3
7. december 2020 kl. 12:32

Jeg kunne godt tænke mig at vide om vedkommende faktisk "holdt styr på dataformaterne, eller bare gættede sig frem fra gang til gang ?

2
7. december 2020 kl. 09:29

Telelogning indebærer, at teleselskaber skal bevare dannede data, som de er, i en periode i stedet for straks at smide dem ud.

Det ville jo være nemmere for politiet, hvis teleselskaberne omsatte til et fælles format, når data udleveres.

Men det er uden for rammen i den gældende ideologi, der som sagt alene kræver opbevaring og udlevering som data er.

Også ved andre udleveringer af data fra IT-systemer efter en editionskendelse skal data udleveres som de er.

Og det vil nok bringe data endnu længere ud i sumpen at kræve konvertering..

For selvfølgelig vil der også kunne opstå fejl og mangler, hvis teleselskaberne skal konvertere. Og i visse tilfælde vil det være umuligt, fordi teknisk udvikling omdefinerer og ændrer naturen af de loggede data, så de ikke uden videre kan omsættes til en tidligere fastsat norm.

Og så vil vi for alvor være på herrens mark med retssikkerheden.

Nej. Politiet skal have data, som de er. Og så må de selv omsætte dem og tolke dem som en politimæssig opgave.

Artiklen får desværre ikke fat i det væsentlige ved politiets problemer med data.

Sandheden er, at der sjældent er vanskeligheder med politiets anvendelse af de data, der skal logges efter logningsbekendtgørelsen.

Men Politiet og teleselskaberne har bevæget sig langt ud over det lovlige område for telelogning, bl. a. ved logning af celleoplysninger ved en mobils dataforbrug og brug af data fra det interne signaleringssystem.

Så er det klart, at mængden af formater og definitioner for data eksploderer og skaber en forringet retssikkerhed.

Så løsningen er enkel:

Hold jer til reglerne

1
7. december 2020 kl. 04:21

Når politiet indhentede data fra teleselskaberne op til teledataskandalen fik man data tilbage i mere end 100 froskellige formater mellem 2011 og 2019. Herunder 30 forskellige dato-formater.

Det minder mig om dengang et dengang anerkendt internationalt computerfirma fik fælles system til kaldbehandling.

Dengang hed er lille matrixprinter f.eks. LA50, men i kalddatabasen havde den 15-20 forskellige navne. Ingen havde tænkt på, forudfastsætte dens navn i databasen.

Man kunne enten have fastlagt ét format til teledatalogs eller have sat en studentermedhjælp til at udvikle et konverteringsprogram til at ensrette formaterne.

Vi fandt en løsning til engangskald: vi skrev HW, SW og ANDET på sedler i tre farver og så talte jeg sedler en gang om måneden. Jeg harså et lille program, hvor jeg indtastede 3 tal, så stod det et par timer og "loggede kald" i databasen ;-)