Bagmanden bag kopieret Tingbogen-database står frem: »Jeg ville bare øve mig«

27. januar 2016 kl. 10:2523
Personen bag det omstridte kopi-site forklarer, at politiet har kontaktet ham og bedt om at få fjernet sitet. Men han har ikke gjort noget ulovligt, påstår han.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

I går kom det frem, at en ukendt person havde kopieret en database fra Tingbogen med samtlige adresser, navne og boliglån på personer i registeret og offentliggjort dem på nettet i en let søgbar form.

Nu står personen bag kopieringen frem og forklarer sig, blandt andet i et indlæg på Reddit Danmark.

Med brugernavnet Protuck nævner han i indlægget, hvad han beskriver som ‘useriøse påstande’ om, at data skulle være stjålet.

I stedet bekræfter han internetaktivisten Christian Pantons formodning om, at data blot er scrapet fra den offentlige digitale udgave af Tingbogen. Der er altså ifølge Protuck ikke tale om ulovlig hacking.

Artiklen fortsætter efter annoncen

Version2 har været været i kontakt med vedkommende på email og har bekræftet, at det er ham, som står bag kopi-sitet.

Personen, der forholder sig anonym, forklarer, at han er blevet kontaktet af det danske politi gennem sin hosting-udbyder. Politiet anmoder ham om at blokere websitet med det samme og viderebringe sidens ip-adresse.

Politiets begrundelse går ifølge Protuck på, at kopi-sitet giver adgang til adresserne på personer med adressebeskyttelse. Derudover påstår politiet, at han har fået fat i databasen på ulovlig vis, og at data indeholder personlige oplysninger om personer, der bliver anset som mulige mål for terrorister.

»Kære danskere, kan I venligst forklare mig, hvad det er for et postyr med disse beskyttede adresser?,« spørger Protuck, der ikke har afsløret sin nationalitet, men dog bekræfter, at han hverken er fra Danmark eller EU.

Artiklen fortsætter efter annoncen

Der har tidligere været spekuleret i, at samtlige omtrent 30.000 danskere med hemmelige adresser, har fået oplysningerne kompromitteret på kopi-sitet. Dette har dog vist sig langt fra at være tilfældet. Som vi tidligere har beskrevet på Version2, så er det sandsynligvis kun et fåtal af personerne med adressebeskyttelse, som har fået offentliggjort deres navn.

Ville blot øve sig - og tjene penge

Protuck benyttede sig af en scraping software, han selv havde skrevet i Ruby, til at hente oplysningerne fra Tingbogen.

Det gjorde han efter eget udsagn i perioden august til december 2015.

»Jeg var forsigtig med ikke at overbelaste websitet og ikke forstyrre dets normale aktivitet. De fleste søgninger fandt sted om natten,« skriver han.

Formålet med det var blot at øve sig i at programmere geografiske informationssystemer (GIS), fortæller han.

Samtidig indrømmer han dog, at han håbede, det ville ville være muligt at placere annoncer på kopi-sitet, så han kunne tjene penge på det i fremtiden.

Om hvorfor han valgte Danmark, skyldes det især den måde, som Tingbogen er designet på:

»De andre lande, som jeg kiggede på, havde allerede noget lignende, eller også var deres registre ikke særlig scrape-venlige,« skriver han.

Artiklen fortsætter efter annoncen

På sigt var det planen, at han ville lave statistikker over udbydere af boliglån og lave forskellige heatmaps som på boligsitet Trulia.

Brugte offentlig liste over adresser

Udgangspunktet for at kunne scrape Tingbogen var en komplet liste over de ca. 2,4 mio. danske adresser.

Den er frit tilgængelig via Geodatastyrelsens hjemmeside i et særligt ARCGIS-format. Datasættet brugte Protuck til at forberede en liste over samtlige huse i Danmark med husnummer, gadenavn og post-nummer. Herefter brugte han en multithreaded web-scraper lavet i Ruby til at søge efter adresserne i Tingbogen en efter en.

Det er i grove træk samme metode, som Google bruger, når det indekserer hjemmesider ifølge Protuck, der samtidig påpeger, at hvis han offentliggjorde en komplet liste med url’er til adresserne i Tingbogen, så ville Google automatisk indeksere indholdet. Dette gør Google dog ikke i øjeblikket, da domænet www.tinglysning.dk ikke har filen robots.txt, som Google bruger til indeksering.

Listen med data fra Tingbogen blev herefter lagt ind i en open source database af typen PostgreSQL. Databasestrukturen er desuden versioneret, hvilket betyder, at hvis nogle hus-registreringer ændrer sig, og registreringen allerede eksisterer, så laver databasen en ny udgave.

Ikke afpresning - man kan frit slette fra databasen.

Kopi-sitet af Tingbogen har blandt andet fået særlig opmærksomhed, fordi det adskiller sig mærkbart fra den officielle udgave på især et punkt.

I den originale udgave af Tingbogen kan man kun søge på adresser, hvilket gør det meget besværligt at søge frem til en specifik person. Men på kopi-sitet har Protuck gjort data mere tilgængelige i form af en ny søgefunktion: Nu kan man også søge på et navn på en person, hvorefter vedkommendes adresse dukker op. Der er dog stadig 15.041 personer i kopi-databasen, hvis navn stadig er beskyttet ifølge Christian Panton, og som man derfor ikke kan søge på.

Forskellen er dog, at det er langt lettere at finde en given persons adresse og boliglån.

»Jeg gør det, fordi jeg tror på, at offentlige data skal gøres tilgængelige og brugbare for internetbrugerne. At gemme offentlige data bag en begrænset søgeformular er ikke den rette måde at tjene offentligheden på,« skriver Protuck og fortæller, at han har været involveret i internet-udvikling og scraping i omtrent 14 år.

Tidligere har der været spekulationer omkring, at hans hjemmeside skulle kunne bruges som afpresningsmiddel over for personer, der gerne ville slettes fra databasen. Dette er dog næppe tilfældet, da enhver person kan fjerne en optegnelse ved at oprette en bruger. Dette kan Version2 bekræfte.

Indtil videre har 300 personer udnyttet sig af muligheden og slettet en optegnelse ifølge Protuck.

Han er i øjeblikket ved at overveje hvilke retlige muligheder, han har for at bevare sitet.

»Der er mange interessante ting gemt i data (fra Tingbogen, red.), og mine fremtidsplaner består blandt andet i at lave interessante rapporter baseret på dem,« skriver han.

23 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
23
28. januar 2016 kl. 12:25

Tinglyste rettigheder er offentlige, det er lissom hele pointen

Absolut. Problemet er at digitaliseringen gør det nemt og billigt at indsamle oplysninger, som kan misbruges. Derfor skal man være meget varsom med hvilke oplysninger, som gøres tilgængelige, og hvordan.

Et par skæverter i den gamle tingbog, var ikke det store problem, da det krævede en reel, og målrettet indsats at få fat i dem. Nu kan man lave en automatisk indsamling, og så sortere det ud, som indeholder noget interessant. Dermed bliver problemstillingen en helt anden.

22
27. januar 2016 kl. 21:50

Nu sidder jeg selv med projekter i ny og næ hvor jeg tager en teknologi op og laver et eller andet med den "bare for at øve mig". Og en del af øvelsen går også i at præsentere og sætte sit projekt op i et produktionsmiljø, med det lille håb om at man måske bliver fundet og bliver populær. Så jeg finder det ganske logisk fra mit synspunkt som tech liderlig udvikler.

20
27. januar 2016 kl. 17:50

Ja du har helt ret. På et af vores retsbygninger står der godt nok dette "Med lov skal land bygges" men der burde stå følgende "Med lov skal staten beskyttes" Det er værd at tænker over

19
27. januar 2016 kl. 15:37

Utroligt så dårligt lovgivningen hænger sammen. Staten har altid ret, og hvis den ikke har ret bruger man andre midler end politik. Man indsætter politi og derefter militær (det der nu måtte være tilbage). En kopi af nogle oplysninger i tingbogen er ulovlige data, når der er en tredie person, der udfører det. Men Staten kan godt udstille cpr numre og mange oplysninger uden konsekvens.

18
27. januar 2016 kl. 15:27

Formålet med det var blot at øve sig i at programmere geografiske informationssystemer (GIS), fortæller han.

Jeg tager ikke stilling til, hvorvidt sitet er forkert eller ikke forkert, men der er vel ingen sammenhæng mellem, at han gerne vil øve sig i programmering og at informationerne skulle offentliggøres? Han kunne vel have øvet sig på sin lokale PC.

17
27. januar 2016 kl. 14:37

isolationsfængsling af forvirrede teenagere, etc, etc.

offtopic, men ja, det er en mega skandale... Retten i Holbæk har i går besluttet af 15-årig pige skal sidde yderligere 14 dage i isolation.

Mor og socialtilsynet har ikke besøgt isoleret 15-årig:http://nyheder.tv2.dk/krimi/2016-01-23-mor-og-socialtilsynet-har-ikke-besogt-isoleret-15-arig

Kundby-sagen: Isolationen fortsætter for 15-årig og 24-årig:http://nyheder.tv2.dk/krimi/2016-01-26-kundby-sagen-isolationen-fortsaetter-for-15-aarig-og-24-aarig

16
27. januar 2016 kl. 14:17

når man googler webadressen så har google allerede trawlet en del at sitet, så navne og adresser kommer frem i google resultatet.

Jeg er der faktisk selv i resultaterne, hvis man søger på tingbogenstatistik.org/vejnavn

og hvis man bruger google cache så har man det fulde resultat

15
27. januar 2016 kl. 13:47

While I originally believed that Denmark is a democratic country that values the freedom of speech and the freedom of the press it appears not to be the case

Det er jo tydeligt at han ikke har været her i landet, for så ville han vide at vi er godt i gang med at demontere det demokrati - ANPG, rituelle domme på budbringere, ulovlige arrestationer af demonstranter, ulovlig telelogning, indførelse at en ulovlig såkaldt digital signatur, oprettelse af et aktivt cyberkrigsorgan under Krigsministeriet, isolationsfængsling af forvirrede teenagere, etc, etc.

14
27. januar 2016 kl. 13:25

http://tingbogenstatistik.org/

Site shutdown</p>
<p>While I believe that the site and content are completely lawful and legal to display I am voluntarily shutting down this site due to the controversy that arouse.</p>
<p>Furthermore I claim that the site in its original form did not violate any Danish laws; it was not hosted in Denmark nor was it made by a EU or a Danish citizen. If any of the so called "protected" addresses were found on the site these addresses are published by <a href="http://www.tinglysning.dk">www.tinglysning.dk</a&gt; and that is the party responsible under Danish law.</p>
<p>My personal belief is that public data cannot be controlled after being released, it is owned by the public and can be used by the public for whatever purpose the public requires.</p>
<p>While I originally believed that Denmark is a democratic country that values the freedom of speech and the freedom of the press it appears not to be the case. So long and thanks for all the fish.

13
27. januar 2016 kl. 12:30

hvis han offentliggjorde en komplet liste med url’er til adresserne i Tingbogen, så ville Google automatisk indeksere indholdet. Dette gør Google dog ikke i øjeblikket, da domænet <a href="http://www.tinglysning.dk">www.tinglysning.dk</a&gt; ikke har filen robots.txt, som Google bruger til indeksering

Ikke korrekt. Google indexerer ikke, udelukkende fordi google ikke har fundet de unikke URL'er til de enkelte sider. Det er kun fordi ingen linker til dem endnu, hvilket denne nye side meget nemt kunne.

Hvis google finder sådanne links konsulterer den robots.txt for at se om den må have lov til indexering. Findes robots.txt ikke svarer det til carde blanche, alt må indexeres. Tinglysningen kan undgå indexering ved at oprette robots.txt og explicit forbyde indexering

12
27. januar 2016 kl. 12:29

Præmissen er forkert hér. Tinglysningssystemet skjuler navne så snart de er markeret som beskyttede i CPR. At nogle så har fået beskyttelse, efter Protuck kopierede data, er jo lidt svært at beskytte imod.

Vi er som sådan ikke uenige, men systemet er jo grundlæggende hullet, hvorfor skal man selv forny sin adresse beskyttelse hvert år, hvorfor kan kommunen alligevel (ifølge borger.dk) give private kreditorer adressen på beskyttede folk, tjekker de reelt om vedkomendes krav er gyldigt inden (jeg tvivler) de udlevere oplysningerne, ens adresse kan jo være registeret i ekstremt mange private databaser/systemer rundt omkring, giver det mening efter flere år at beskytte sin nuværende adresse?, burde folk ikke flytte et nyt sted hen og få adressebeskyttelse fra dag et? (hvis de rent faktisk vil have en bare nogenlunde beskyttelse af deres adresse).

Er der nogen grund til dataene skal være 100% offentligt tilgængeligt? selvom jeg hader nemid, kunne en simpel løsning da være krav om nemid login først, og så give mulighed for f.eks 100 daglige opslag, og i de felter de nu mener giver mening).

11
27. januar 2016 kl. 12:22

Protuck kan komme fra New York - Cornwall - hvem ved

10
27. januar 2016 kl. 12:14

Problemet ved at have offentligt tilgængelige oplysninger på nettet er at det i modsætning til gammeldags trykte papir-udgaver er meget nemt at høste oplysninger. Endvidere at én gang offentliggjort data som senere bliver fortrolige kan være nemme at finde (i modsætning til det originale register som opdateres løbende).

I en anden sammenhæng kigger jeg efter svigerfars proklama på statstidende.dk

Ifølge retsinformation*) gælder at "...dele af oplysningerne der identificerer den eller de personer, som det fortrolige forhold vedrører. Ifølge lov om Statstidende § 5, stk. 2, må sådanne oplysninger ikke kunne fremsøges på personidentifikationen i et længere tidsrum end 1 år fra offentliggørelse."

For proklama omfattes "Navn, adresse og personnummer på afdøde og afdødes tidligere afdøde ægtefælle" af forbuddet mod at være søgbart.

Jeg kan derfor ikke finde svigerfar ud fra hans navn - men hvis jeg indtaster hans dødsdato kan jeg finde ham --- og det "sjove" er at så kan jeg godt se disse oplysninger om hans cpr-nummer, afdøde ægtefælle osv. :-0

Det vil sige at samfundet mener at nogle oplysninger er så fortrolige at vi ikke må bruge dem som søgekriterier, men de må godt være synlige når vi bruger andre søgekriterier.

*) https://www.retsinformation.dk/Forms/R0710.aspx?id=162572&#B1

9
27. januar 2016 kl. 12:05

Hvad med at gå efter tinglysningsretten først, det er trods alt dem der har lagt adresser på folk med adressebeskyttelse ud i første omgang, at en anden så har kopieret det er så heller ikke optimalt, men gå da hovedmanden først (tinglysningen)

Præmissen er forkert hér. Tinglysningssystemet skjuler navne så snart de er markeret som beskyttede i CPR. At nogle så har fået beskyttelse, efter Protuck kopierede data, er jo lidt svært at beskytte imod.

Tinglyste rettigheder er offentlige, det er lissom hele pointen.

8
27. januar 2016 kl. 11:57

Måske skulle vi bare vende os til at leve i et åbent og gennemsigtigt samfund istedet!? Hvorfor have alle de hemmeligheder vi kun vil dele med staten? Jeg vil hellere dele med gode journalister.

Meget af hemmelighedskræmmeriet er kulturbestemt og fjerner fokus fra det der virkelig skal holdes hemmeligt.

lukkethed har ingen fremtid.

7
27. januar 2016 kl. 11:56

Hvad med at gå efter tinglysningsretten først, det er trods alt dem der har lagt adresser på folk med adressebeskyttelse ud i første omgang, at en anden så har kopieret det er så heller ikke optimalt, men gå da hovedmanden først (tinglysningen)

Måske skal vi lige klappe hesten lidt?

Vi forestiller os at jeg f.eks. efter 3 års ejerskab af en bolig får adressebeskyttelse. I de 3 år vil min adresse være tilgængelig på feks. tinglysning.dk da de næppe er synske hos tinglysning.

Det vil sige at opslag på tinglysning.dk før min adressebeskyttelse vil indeholde min adresse, og opslag efter min anmodning om beskyttelse kun vil indeholde en "udeladt adresse".

Dermed er der ikke noget odiøst i at en tidligere kopi af den originale databases offentlige tilgængelige oplysninger kan indeholde nu skjulte oplysninger. Det er dermed heller ikke noget der kan lastes tinglysning.

Ovenstående svarer til at Google gemme en cached udgave af en hjemmeside med oplysninger som måske er slettet senere - eller at man kan finde tidligere versioner af hjemmesider på WaybackMachine (https://archive.org/web/)

6
27. januar 2016 kl. 11:43

Ja det er lidt skræmmende og tankevækkende. Vi har i dag en del identitets tyveri her i landet, hvad kan dette så ikke bruges til. Men når en offentlig instans har data liggende på den måde, hvor er datatilsynet så henne. For virksomheder der har ringe eller slet ingen sikkerhed kan det jo komme til koste virksomheden meget dyrt. Det burde kunne lade sig gøre at lukke sitet ned hvis det er oprettet her i EU Men skræmmmende - JA

5
27. januar 2016 kl. 11:34

Sitet's "feedback" side ligner i al fald noget fra Google Translate, e.g. kan man bede om at blive fjernet fra registeret og:

  1. Pladen vil straks blive fjernet fra vores hjemmeside

hvilket lyder som en automatisk fejl i oversættelsen af "record".

Så held og lykke med at få det lukket ...

3
27. januar 2016 kl. 11:17

Måske skulle vi bruge lidt tid på at finde alt om Protuck og smide det på nettet - bare for at øve os ;)

2
27. januar 2016 kl. 11:10

Det er jo ironisk når han siger, at han ikke forstår det postyr omkring beskyttede adresser i Danmark, når han selv har valgt at fået sin personlige informationer beskyttet i whois-opslaget. Det er essentielt det samme.

1
27. januar 2016 kl. 11:07

Politiets begrundelse går ifølge Protuck på, at kopi-sitet giver adgang til adresserne på personer med adressebeskyttelse. Derudover påstår politiet, at han har fået fat i databasen på ulovlig vis, og at data indeholder personlige oplysninger om personer, der bliver anset som mulige mål for terrorister.

Hvad med at gå efter tinglysningsretten først, det er trods alt dem der har lagt adresser på folk med adressebeskyttelse ud i første omgang, at en anden så har kopieret det er så heller ikke optimalt, men gå da hovedmanden først (tinglysningen)

Og hvorfor har mulige mål (må jo være nogle konkrete de tænker på), ikke allerede adressebeskyttelse?

Det er simpelthen for plat at trække terror kortet igen og igen og igen og igen og igen og igen.