Bøvler du også med Googles cache? Sådan fjernede DR cpr-numre efter musiker-læk

Efter et par dage lykkedes det DR at få fjernet danske kunstneres cpr-numre fra Googles cache.

Forleden gjorde Version2 DR opmærksom på, at flere musikeres cpr-numre var tilgængelige via dr.dk. Men selvom DR relativt hurtigt fik fjernet filerne fra serveren, var de stadig tilgængelige via Google, som havde cached oplysningerne. Efter et par dage lykkedes det også DR at få cpr-numrene ud af søgemastodontens cache.

De fortrolige personoplysninger lå fordelt i flere txt-filer. Filerne var et levn fra et gammelt system, som DR har anvendt til at rapportere til rettighedshaverne af musik, hvilke titler og kunstnere der er afspillet i DR.

»Første skridt var at slette de gamle datafiler og sikre, at requests til disse ville give http-status-kode 404 (Not Found). Dermed vil en søgemaskine fjerne sin reference ved reindeksering,« oplyser underdirektør for DR Teknologi Mikkel Müller i en mail sendt via DR's presseafdeling til Version2.

Her kan han også fortælle, at DR ikke har haft personlig kontakt med Google i forhold til at få oplysningerne fjernet.

»Kontakten med Google sker via deres webmaster-værktøj.«

Flere forespørgsler i sekundet

I værktøjet skruede DR op for antallet af forespørgsler fra Google til organisationens domæne, så tallet endte på det maksimale 10 forespørgsler i sekundet. Det var for hurtigere at få crawlet dr.dk og dermed opdateret Googles indeks, forklarer Mikkel Müller.

»Normalt har vi angivet gennemgangshastigheden til et lavere niveau, for ikke at belaste vores servere unødvendigt,« fortæller han og fortsætter:

»Samtidig anmodede vi Google om, at fjerne links til datafilerne og de cachede kopier fra deres indeksering. Det gøres med Google Search Console, hvor vi som administrator af dr.dk kan angive, hvordan Google skal behandle vores websider.«

Google endte med at være en halv til en hel dag om at behandle anmodningen om at få oplysningerne fjernet. Det samlede forløb tog dog længere tid, fremgår det af svaret fra Mikkel Müller.

»Vi fandt ud af undervejs, at Google ikke kunne behandle en anmodning med et wildcard i url, hvorved vi blev nødt til at angive samtlige url’er for datafilerne, som Google havde indekseret. Derfor gik der et par dage, før alt indholdet var fjernet også i Googles cache.«

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (7)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Gert Madsen

Det var nok bedre med en revision af personnummerlovgivningen. Det er rigtigt at det er komplet latterligt, at personnummeret skal være hemmeligt, samtidigt med at 20-30% af befolkningen reelt har adgang til det.

Det nuværende personnummer har nogle indbyggede svagheder, som det er på høje tid at få gjort noget ved.

  • 0
  • 0
Log ind eller Opret konto for at kommentere