Webscanner skal sikre mod kommunale læk af cpr-numre

Illustration: leowolfert/Bigstock
Kommunerne får open source-scanner, der kan crawle deres websites, så borgere fremover ikke risikerer at falde over egne, personfølsomme data på nettet.

Det skal være slut med at finde cpr-numre og personfølsomme data, der ligger og flyder på kommunale hjemmesider. Henover sommeren tester det kommunale digitaliseringsfællesskab, OS2, en webscanner, der kan crawle siderne for persondata, og til efteråret har alle kommuner mulighed for at bruge scanneren - på tværs af CMS’er.

Websanneren vil kunne registrere alle typiske personhenførbare data såsom cpr-numre, adresser og navne. Efter hver scanning foreligger en rapport, hvor data er markeret med enten grøn, gul eller rød alt efter, hvor kritiske de ser ud til at være.

Læs også: CPR-numre ligger frit fremme på kommunernes hjemmesider

Løsningen er baseret på Open Source, så det er frit for alle kommunerne at implementere og drive den selv, men OS2 vil samtidig etablere en fælles drift af scanneren, hvor kommunerne kan bestille scanninger enten ad hoc eller med faste intervaller, så de selv slipper for driften.

Det er op til den enkelte kommune, hvorvidt den vil gøre brug af scanneren, men formand for OS2 og digitaliseringschef i Lyngby-Taarbæk Kommune, Jens Kjellerup, siger til Version2, at han forventer, at »majoriteten af landets kommuner vil bruge produktet. Herunder samtlige af de 30 kommuner, der er medlem af OS2.« Indtil videre har 16 kommuner givet tilsagn om at finansiere scanneren.

Aarhus Kommune: Scanner skal forhindre, at læk ikke gentager sig

En af de kommuner er Aarhus Kommune, der i april opdagede, at cpr-numre med dertil hørende navne og titler på 1.600 borgere lå frit fremme på en af kommunes website. Ti måneder gik der, før kommunen opdagede lækket, der var sket på grund af en menneskelig fejl.

Efterfølgende lovede digitaliseringschefen i Aarhus Kommune, Rasmus Ry Nielsen, at man ville gøre sit ypperste for at forebygge gentagelser. Derfor har kommunen også meldt sig under fanerne på den nye webscanner, som kan operere på tværs af CMS’er i modsætning til de scanningsværktøjer, som kommunen anvender nu.

Læs også: Kommune lækkede 1.600 cpr-numre i ti måneder

»Vi vil bruge OS2-scanneren til at scanne alle nye, såvel som gamle kommunale sites. Frekvensen har vi endnu ikke lagt os fast på - men den bliver høj,« skriver Rasmus Ry Nielsen i en mail til Version2.

OS2-webscanneren er baseret på en webcrawler, som kan crawle et hvilket som helst CMS-system. Ved at bruge en crawler bliver scanneren uafhængig af den enkelte teknologi, som et website er bygget op af.

Læs også: Digital tinglysning lukker for CPR-smuthul

Scanneren er ikke bygget op omkring ny teknologi, »men nogle gange ser vi først behovet, når det dukker op,« siger Jens Kjellerup på spørgsmålet om, hvorfor man det først er nu, at kommunerne får en fælles løsning.

Fordi teknologi og koder eksisterer i forvejen, forventer Jens Kjellerup, at det vil gå hurtigt med at »få plottet de data ind, som opgaven kræver«, og derfor kan løsningen som sagt være klar allerede efter sommeren.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (23)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Jonas Nyrup

Hvis scanneren skal sikre mod læk, skal en side scannes hver gang den ændres før ændringerne træder i kraft.

En scanner der kun kører med faste intervaller eller ad-hoc sikrer ikke mod læk, den afslører bare hurtigere hver gang der er et læk.

  • 14
  • 1
Kristian Nielsen

Det lyder alt sammen meget godt, men der er vel stadig tale om en reaktiv løsning. Lækket er jo allerede sket når scanneren finder personfølsomme oplysninger.

Måske skulle de være lidt mere proaktive og enten sikre at ingen kommunalt ansatte kan få lov at uploade noget på et offentligt CMS eller måske scanne alt hvad det bliver lagt op inden det bliver publiceret

  • 12
  • 1
Martin Kofoed

1) CPR-numre udstedes til alle danskere som identifikation. Man kan endda rekvirere disse som en slags telefonbog.
2) Diverse virksomheder beslutter sig mange år senere til at anvende nummeret som autentifikation og adgangskontrol.
3) CPR-numre bliver nu pludselig private, og der informeres om at holde de sidste fire cifre hemmelige, som var det en pinkode.
4) Der "lækkes" CPR-numre fra alle mulige systemer, idet den mest udbredte anvendelse stadig er identifikation.
5) Kommuner må spilde skatteydernes penge på tvivlsomt software for at undgå læk af CPR-numre.

Hold nu kæft et cirkus ... :-(

  • 11
  • 0
Martin Nielsen

.. fanger jo heller ikke nødvendigvis alle sider.

Eksempelvis kan sider være aktivt genereret ud fra brugeraktion - og hvis det er sådan en side der returner noget "hemmeligt", så vil det stadig kunne ske.


Det er også min tanke.

Et sytem der skal opfange CPR-numre, skal kunne tilgå dokumenter på serverne (bagom web-interfaced) og skal kunne genkende tekst. Hvis systemet kun ser på overfladen, vil det ikke opdage mere end de mennesker der bruger hjemmesiden.

Der er faktisk lidt rystende, at de tror at dette er nok. Men der går nok 6 måneder til 7 år, før evt. huller bliver offentligt kendte - i den tid har smarte folk haft længe til at udnytte evt. huller i systemerne.

  • 1
  • 1
Kim Jensen

Hvordan med udsendelse af fortrolig information gennem Gmail, YahooMail, Hotmail ? Via USB sticks ? Fildelingssites og -tjenester (Dropbox, Box, Google Drive, OneDrive) ?
Som altid halve løsninger..

  • 1
  • 2
Jacob Pind

Folk misforstår det her tiltag, er ikke for at beskytte borgerne mod deres cpr kommer til uvedkommendes kendtskab, men for at beskytte offenlige myndighed mod at borgerne kan finde sådanne nummer på offenlige sider.

  • 3
  • 1
Jens Jönsson

Hvis Google får crawlet og fundet siderne først, så er de lige vidt. Selvom de beder Google om at fjerne siderne fra Googles indeks, så kan informationerne hurtigt være spredt for alle vinde.

Så som andre er inde på, så er det mere noget proaktivt scanning der skal til, sådan at det fanges >før< det kommer ud på det store stygge net....

  • 2
  • 1
Asbjørn Jensen

en del af problemet er netop de manglende konsekvenser af "fejl" (læs uundgåelige konsekvenser)
Objektivt ansvar, standardiseret minimum erstatning, tab af bonus kunne måske øge respekten for egne fejl i den offentlige og private IT anvendelse. Der er for billigt at udstede "vi beklager" når de belønnes for at undlade test, undlade uddannelse af medarbejdere, afskaffelse af webmasters, vælge forældet teknologi, lave cover-up, ikke respondere på sikkerhedsrapporter.

  • 1
  • 1
Janus Knudsen

Projektet er udbudt som open source, vil ved allerede hvem der render med opgaven.

Vi ved også at projektet kommer til at koste 40 til 50 millioner, men kunne være udviklet udviklet under 300000 kr af de rigtige folk.

Vi ved også at projektet bliver forsinket og kommer til at koste mere end først antaget.

Vi ved også at de ansvarlige for det her udbudsmakværk og hovsaløsninger aldrig forbedrer sig.

Der er noget galt i Danmark.

  • 1
  • 3
Peter Binderup

Jeg havde ellers lovet mig selv ikke at deltage mere på v2.dk men der er simpelthen så mange kommentarer her der er helt hen i vejret. Jeg skriver her som privatperson, men er med i projektet for en af OS2web kommunerne.

Projektet kommer ikke i nærheden af at koste 40-50 mio som Janus så frisk mener, det er langt under annonceringsgrænsen.

Scopet gør (samt leverandørens frihed) gør, at tidsplanen burde holde. Hele projekt forløbet er ret åbent, og man kan følge med i dokumentationen hvis man gjorde sig den ulejlighed at se på http://www.os2web.dk/ samt tilhørende jira side.

Scanningen vil ikke alene crawle ud fra hvad der kan findes via et traditionelt crawl, der vil også være mulighed for at uploade sitemaps genereret med indhold der er "forældreløs". Flere af kommunerne har i dag allerede systemer der scanner inden dokumenter kommer ud på nettet, for dem vil dette være et ekstra lag af sikkerhed, for andre vil det være deres første lag. I den sammenhæng, ja så er det reaktion baseret sikkerhed, men stadig bedre end ingenting, og første skridt på at få ryddet op i de kilder til "læk" der kan være ud over den menneskelige faktor.

Og husk endelig på at det er jo open source, så er man ikke tilfreds, så vil den bedste form for kritik være at forke projektet og gøre det bedre - alt andet er bare brok.

  • 3
  • 1
Christian Nobel

Og husk endelig på at det er jo open source, så er man ikke tilfreds, så vil den bedste form for kritik være at forke projektet og gøre det bedre - alt andet er bare brok.

Meget af kritikken går sådan set ikke på teknikken eller udførslen af OS2 (har IBM i øvrigt givet sin velsignelse til at man bruger det navn?), men hele tankesættet bag det at påføre sig et kondom når man underviser som Niels Hansens XKCD refererer til.

Det svarer lidt til at man er nødt til at køre med en fejemaskine bag en lastbil, i stedet for at vognmanden bare sørger for at der ikke kan falde noget last af.

  • 2
  • 0
Peter Binderup

CPR-numre er ikke hemmelige, de er bare et ID. Offentliggør alle 5.5 millioner sammen med navn, og så er de ikke hemmelige mere. Og så er der ikke brug for en CPR-nr scanner.

Der er jeg delvist enig - der er dog situationer hvor navn og/eller CPR kan kædes sammen med sager, så igen skal man behandle det med fortrolighed, men ja et CPR nummer bør ikke være andet end en simpel identifier af en person (og ikke validering af personen). Specielle navne i relation til behandling, familiesager, misbrug, vold osv. er også lækager der bør søges efter - for nok kan disse sider/dokumenter have CPR maskeret, men der kan være andre informationer der kan skade lige så meget.

Det svarer lidt til at man er nødt til at køre med en fejemaskine bag en lastbil, i stedet for at vognmanden bare sørger for at der ikke kan falde noget last af.

Så vi skal ignorere de data der allerede er publiceret og kun fokusere på det der kommer ud fremadrettet?

At kalde en scanner overflødig svarer lidt til at sige at brandalarmer er overflødige, vi kunne jo bare fjerne alle de kilder i hjemmet der kan forårsage en ildebrand, men det forhindre nu ikke brande i at ske alligevel.
Brandalarmen hyler først når skaden er sket, men kan være med til at minimere skaden og få slukket branden før den udvikler sig. På samme måde som en reaktionsbaseret scanner kan være med til at identificere de steder i workflowet hvor der er sket et læk (uanset om der er tale om en maskinel eller menneskelig fejl).

Scanneren er blot ét værktøj i værktøjskassen og ikke den endelige løsning til alle CPR problemerne. VI har i dag et problem i de allerede publicerede data, så det skal selvfølgelig løses, og de interne systemer skal selvfølgelig være på plads til at minimere lækager af cpr numre eller anden følsom data, men det er ikke formålet med dette ene projekt (og jeg skriver minimere netop fordi at der er grader af personfølsomme data - hvad der er følsomt for én person er det måske ikke for en anden eller i lovens fortolkning - men det er op til lovgiverne).

Forklaringen til navnet står beskrevet i footeren på hjemmesiden, har IBM et problem med det navn er jeg sikker på at deres henvendelse er velkommen.

  • 3
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize