Forleden gjorde Version2 DR opmærksom på, at flere musikeres cpr-numre var tilgængelige via dr.dk. Men selvom DR relativt hurtigt fik fjernet filerne fra serveren, var de stadig tilgængelige via Google, som havde cached oplysningerne. Efter et par dage lykkedes det også DR at få cpr-numrene ud af søgemastodontens cache.
De fortrolige personoplysninger lå fordelt i flere txt-filer. Filerne var et levn fra et gammelt system, som DR har anvendt til at rapportere til rettighedshaverne af musik, hvilke titler og kunstnere der er afspillet i DR.
»Første skridt var at slette de gamle datafiler og sikre, at requests til disse ville give http-status-kode 404 (Not Found). Dermed vil en søgemaskine fjerne sin reference ved reindeksering,« oplyser underdirektør for DR Teknologi Mikkel Müller i en mail sendt via DR's presseafdeling til Version2.
Her kan han også fortælle, at DR ikke har haft personlig kontakt med Google i forhold til at få oplysningerne fjernet.
»Kontakten med Google sker via deres webmaster-værktøj.«
Flere forespørgsler i sekundet
I værktøjet skruede DR op for antallet af forespørgsler fra Google til organisationens domæne, så tallet endte på det maksimale 10 forespørgsler i sekundet. Det var for hurtigere at få crawlet dr.dk og dermed opdateret Googles indeks, forklarer Mikkel Müller.
»Normalt har vi angivet gennemgangshastigheden til et lavere niveau, for ikke at belaste vores servere unødvendigt,« fortæller han og fortsætter:
»Samtidig anmodede vi Google om, at fjerne links til datafilerne og de cachede kopier fra deres indeksering. Det gøres med Google Search Console, hvor vi som administrator af dr.dk kan angive, hvordan Google skal behandle vores websider.«
Google endte med at være en halv til en hel dag om at behandle anmodningen om at få oplysningerne fjernet. Det samlede forløb tog dog længere tid, fremgår det af svaret fra Mikkel Müller.
»Vi fandt ud af undervejs, at Google ikke kunne behandle en anmodning med et wildcard i url, hvorved vi blev nødt til at angive samtlige url’er for datafilerne, som Google havde indekseret. Derfor gik der et par dage, før alt indholdet var fjernet også i Googles cache.«

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.