Bøvler du også med Googles cache? Sådan fjernede DR cpr-numre efter musiker-læk

7 kommentarer.  Hop til debatten
Efter et par dage lykkedes det DR at få fjernet danske kunstneres cpr-numre fra Googles cache.
6. september 2017 kl. 05:13
errorÆldre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Forleden gjorde Version2 DR opmærksom på, at flere musikeres cpr-numre var tilgængelige via dr.dk. Men selvom DR relativt hurtigt fik fjernet filerne fra serveren, var de stadig tilgængelige via Google, som havde cached oplysningerne. Efter et par dage lykkedes det også DR at få cpr-numrene ud af søgemastodontens cache.

De fortrolige personoplysninger lå fordelt i flere txt-filer. Filerne var et levn fra et gammelt system, som DR har anvendt til at rapportere til rettighedshaverne af musik, hvilke titler og kunstnere der er afspillet i DR.

»Første skridt var at slette de gamle datafiler og sikre, at requests til disse ville give http-status-kode 404 (Not Found). Dermed vil en søgemaskine fjerne sin reference ved reindeksering,« oplyser underdirektør for DR Teknologi Mikkel Müller i en mail sendt via DR's presseafdeling til Version2.

Her kan han også fortælle, at DR ikke har haft personlig kontakt med Google i forhold til at få oplysningerne fjernet.

Artiklen fortsætter efter annoncen

»Kontakten med Google sker via deres webmaster-værktøj.«

Flere forespørgsler i sekundet

I værktøjet skruede DR op for antallet af forespørgsler fra Google til organisationens domæne, så tallet endte på det maksimale 10 forespørgsler i sekundet. Det var for hurtigere at få crawlet dr.dk og dermed opdateret Googles indeks, forklarer Mikkel Müller.

»Normalt har vi angivet gennemgangshastigheden til et lavere niveau, for ikke at belaste vores servere unødvendigt,« fortæller han og fortsætter:

»Samtidig anmodede vi Google om, at fjerne links til datafilerne og de cachede kopier fra deres indeksering. Det gøres med Google Search Console, hvor vi som administrator af dr.dk kan angive, hvordan Google skal behandle vores websider.«

Google endte med at være en halv til en hel dag om at behandle anmodningen om at få oplysningerne fjernet. Det samlede forløb tog dog længere tid, fremgår det af svaret fra Mikkel Müller.

»Vi fandt ud af undervejs, at Google ikke kunne behandle en anmodning med et wildcard i url, hvorved vi blev nødt til at angive samtlige url’er for datafilerne, som Google havde indekseret. Derfor gik der et par dage, før alt indholdet var fjernet også i Googles cache.«

7 kommentarer.  Hop til debatten
Debatten
Log ind for at deltage i debatten.
settingsDebatindstillinger
7
11. september 2017 kl. 10:05

Det var nok bedre med en revision af personnummerlovgivningen. Det er rigtigt at det er komplet latterligt, at personnummeret skal være hemmeligt, samtidigt med at 20-30% af befolkningen reelt har adgang til det.

Det nuværende personnummer har nogle indbyggede svagheder, som det er på høje tid at få gjort noget ved.

5
10. september 2017 kl. 07:45

Offentliggør nu bare det cpr-register...

4
6. september 2017 kl. 14:57

Arh...det er jo det samme som archive.org ;-)

3
6. september 2017 kl. 14:56

Wayback Machine måske...

2
6. september 2017 kl. 13:12

archive.org (er der flere?) gemmer sider permanent. Det kan være rigtig svært at fjerne ting fra Internettet.

1
6. september 2017 kl. 11:29

Google angiver faktisk at man kan få et helt bibliotek med underliggende struktur til at forsvinde, men det virker dog desværre ikke i praksis.