I går kom det frem, at en ukendt person havde kopieret en database fra Tingbogen med samtlige adresser, navne og boliglån på personer i registeret og offentliggjort dem på nettet i en let søgbar form.
Nu står personen bag kopieringen frem og forklarer sig, blandt andet i et indlæg på Reddit Danmark.
Med brugernavnet Protuck nævner han i indlægget, hvad han beskriver som ‘useriøse påstande’ om, at data skulle være stjålet.
I stedet bekræfter han internetaktivisten Christian Pantons formodning om, at data blot er scrapet fra den offentlige digitale udgave af Tingbogen. Der er altså ifølge Protuck ikke tale om ulovlig hacking.
Version2 har været været i kontakt med vedkommende på email og har bekræftet, at det er ham, som står bag kopi-sitet.
Personen, der forholder sig anonym, forklarer, at han er blevet kontaktet af det danske politi gennem sin hosting-udbyder. Politiet anmoder ham om at blokere websitet med det samme og viderebringe sidens ip-adresse.
Politiets begrundelse går ifølge Protuck på, at kopi-sitet giver adgang til adresserne på personer med adressebeskyttelse. Derudover påstår politiet, at han har fået fat i databasen på ulovlig vis, og at data indeholder personlige oplysninger om personer, der bliver anset som mulige mål for terrorister.
»Kære danskere, kan I venligst forklare mig, hvad det er for et postyr med disse beskyttede adresser?,« spørger Protuck, der ikke har afsløret sin nationalitet, men dog bekræfter, at han hverken er fra Danmark eller EU.
Der har tidligere været spekuleret i, at samtlige omtrent 30.000 danskere med hemmelige adresser, har fået oplysningerne kompromitteret på kopi-sitet. Dette har dog vist sig langt fra at være tilfældet. Som vi tidligere har beskrevet på Version2, så er det sandsynligvis kun et fåtal af personerne med adressebeskyttelse, som har fået offentliggjort deres navn.
Ville blot øve sig - og tjene penge
Protuck benyttede sig af en scraping software, han selv havde skrevet i Ruby, til at hente oplysningerne fra Tingbogen.
Det gjorde han efter eget udsagn i perioden august til december 2015.
»Jeg var forsigtig med ikke at overbelaste websitet og ikke forstyrre dets normale aktivitet. De fleste søgninger fandt sted om natten,« skriver han.
Formålet med det var blot at øve sig i at programmere geografiske informationssystemer (GIS), fortæller han.
Samtidig indrømmer han dog, at han håbede, det ville ville være muligt at placere annoncer på kopi-sitet, så han kunne tjene penge på det i fremtiden.
Om hvorfor han valgte Danmark, skyldes det især den måde, som Tingbogen er designet på:
»De andre lande, som jeg kiggede på, havde allerede noget lignende, eller også var deres registre ikke særlig scrape-venlige,« skriver han.
På sigt var det planen, at han ville lave statistikker over udbydere af boliglån og lave forskellige heatmaps som på boligsitet Trulia.
Brugte offentlig liste over adresser
Udgangspunktet for at kunne scrape Tingbogen var en komplet liste over de ca. 2,4 mio. danske adresser.
Den er frit tilgængelig via Geodatastyrelsens hjemmeside i et særligt ARCGIS-format. Datasættet brugte Protuck til at forberede en liste over samtlige huse i Danmark med husnummer, gadenavn og post-nummer. Herefter brugte han en multithreaded web-scraper lavet i Ruby til at søge efter adresserne i Tingbogen en efter en.
Det er i grove træk samme metode, som Google bruger, når det indekserer hjemmesider ifølge Protuck, der samtidig påpeger, at hvis han offentliggjorde en komplet liste med url’er til adresserne i Tingbogen, så ville Google automatisk indeksere indholdet. Dette gør Google dog ikke i øjeblikket, da domænet www.tinglysning.dk ikke har filen robots.txt, som Google bruger til indeksering.
Listen med data fra Tingbogen blev herefter lagt ind i en open source database af typen PostgreSQL. Databasestrukturen er desuden versioneret, hvilket betyder, at hvis nogle hus-registreringer ændrer sig, og registreringen allerede eksisterer, så laver databasen en ny udgave.
Ikke afpresning - man kan frit slette fra databasen.
Kopi-sitet af Tingbogen har blandt andet fået særlig opmærksomhed, fordi det adskiller sig mærkbart fra den officielle udgave på især et punkt.
I den originale udgave af Tingbogen kan man kun søge på adresser, hvilket gør det meget besværligt at søge frem til en specifik person. Men på kopi-sitet har Protuck gjort data mere tilgængelige i form af en ny søgefunktion: Nu kan man også søge på et navn på en person, hvorefter vedkommendes adresse dukker op. Der er dog stadig 15.041 personer i kopi-databasen, hvis navn stadig er beskyttet ifølge Christian Panton, og som man derfor ikke kan søge på.
Forskellen er dog, at det er langt lettere at finde en given persons adresse og boliglån.
»Jeg gør det, fordi jeg tror på, at offentlige data skal gøres tilgængelige og brugbare for internetbrugerne. At gemme offentlige data bag en begrænset søgeformular er ikke den rette måde at tjene offentligheden på,« skriver Protuck og fortæller, at han har været involveret i internet-udvikling og scraping i omtrent 14 år.
Tidligere har der været spekulationer omkring, at hans hjemmeside skulle kunne bruges som afpresningsmiddel over for personer, der gerne ville slettes fra databasen. Dette er dog næppe tilfældet, da enhver person kan fjerne en optegnelse ved at oprette en bruger. Dette kan Version2 bekræfte.
Indtil videre har 300 personer udnyttet sig af muligheden og slettet en optegnelse ifølge Protuck.
Han er i øjeblikket ved at overveje hvilke retlige muligheder, han har for at bevare sitet.
»Der er mange interessante ting gemt i data (fra Tingbogen, red.), og mine fremtidsplaner består blandt andet i at lave interessante rapporter baseret på dem,« skriver han.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.