Søgemaskine-mystik hos Danland sender private brugerdata i grams

24. juni 2013 kl. 15:2711
Google og Bing indekserer websider hos feriecentret Danland, der rummer alle kundernes booking-oplysninger. Det gør det muligt at finde frem til for eksempel tomme boliger.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Kunder hos Danland/Dancenter, som lejer feriehuse ud, kan lige nu risikere, at deres private booking-oplysninger dukker op efter en søgning på Google eller Bing.

Siderne er nemlig ikke beskyttet af password, men ligger på en adresse, hvor et tilfældigt tal på 18 cifre i URL’en skal holde fremmede væk. Og det bekymrer Troels Kjems, ejer af firmaet Onlineeffekt.dk, som i tirsdags fik et link til sin booking hos Danland.

»Jeg undrede mig over, at jeg kunne få alle informationer om min booking, bare ved at klikke på et simpelt link i mailen. Og så prøvede jeg at google, for at se, om de her sider var indekseret, og jeg fandt hurtigt 6-7 stykker,« siger han til Version2.

På siden kan man finde reservationsnummer for bookingen, hvor og hvornår man skal hente nøglerne til feriehuset, kundens e-mail og adresse, lejeprisen og betalingsmiddel. Det kan især bruges af indbrudstyve til at regne ud, hvilke huse, der vil stå tomme hvornår.

Artiklen fortsætter efter annoncen

»Det har jeg det ikke godt med. Jeg ville aldrig selv skrive på sociale medier, hvornår jeg var væk hjemmefra,« siger Troels Kjems.

Han vurderede, at reservationsnumrene var fortløbende, og at man med automatiserede forespørgsler relativt hurtigt ville kunne trække data ud fra de mange bookinger, der altså er frit tilgængelige på nettet, hvis man kender den rette URL.

Men sådan fungerer det ikke, siger Jan Henriksen, onlinechef hos Danland. Reservationsnummeret består af et årstal og dernæst 18 tilfældige cifre. Der skal derfor rigtig mange forsøg til, før man har ramt den rigtige kombination af husnummer, årstal og reservationsnummer.

Er det en høj nok sikkerhed til at beskytte kundernes data?

»Det har det jo været hidtil. Denne her situation (med kundedata i søgeresultater, red.) har aldrig været der før. Og det er også derfor, vi er så meget obs på nu at finde ud af, hvordan oplysningerne kan komme ud,« siger han til Version2.

Det nye problem er altså, at de 'hemmelige' sider med booking-oplysninger bliver indekseret af Google og Bing og kan dukke op i søgeresultaterne.

»Vi har gjort alt, hvad man overhovedet kan gøre, for at undgå at de bliver fundet af Google. Med robots.txt og så videre. Det kan man se, hvis man laver en view source på vores side,« siger han.

Og så er det blevet indekseret alligevel?

»Ja, der er i hvert fald sket et-eller-andet. Det er det, vi er ved at undersøge,« siger onlinechefen.

Ifølge debatten på et opslag på Google+, som Troels Kjems skrev om problemet, kan søgemaskinerne godt finde på at indeksere sider, på trods af en robots.txt-fil på serveren, som beder om det modsatte. Det sker hvis en bruger med en værktøjslinje fra søgemaskinerne besøger en webside, som ikke er blevet indekseret af den sædvanlige crawler, der konstant holder øje med internettet.

11 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
11
26. juni 2013 kl. 18:13

Er der nogen form for sikkerhed i, at en side ikke bliver indekseret? Det er vel kun lidt privatlivs-beskyttelse, man får ud af ikke at være i google. For mig lyder det som oplysninger, der kræver væsentlig bedre beskyttelse (kryptering, login mv.)

10
25. juni 2013 kl. 12:34

robots.txt angiver ikke om søgemaskiner må indexere sider, den angiver udelukkende om deres crawlere selv skal gennemsøge dit site.

Hvis du ikke vil have dine sider indexeret af Google kan du bla gøre dette ved hjælp af https://www.google.com/webmasters/tools.

9
25. juni 2013 kl. 10:13

Ifølge debatten på et opslag på Google+, som Troels Kjems skrev om problemet, kan søgemaskinerne godt finde på at indeksere sider, på trods af en robots.txt-fil på serveren, som beder om det modsatte. Det sker hvis en bruger med en værktøjslinje fra søgemaskinerne besøger en webside, som ikke er blevet indekseret af den sædvanlige crawler, der konstant holder øje med internettet.

Hvis Google får adgang til "hemmelige"-websider via en værktøjslinie, som registrerer alle de hjemmesider, som brugeren besøger, så håber jeg, at datatilsynet undersøger det nærmere.

Hemmelige URL's har alle dage været en simpel måde at beskytte sig på og bliver nok brugt af mange, da det er brugervenligt.

7
24. juni 2013 kl. 23:03

Reservationsnummeret består af et årstal og dernæst 18 tilfældige cifre. Der skal derfor rigtig mange forsøg til, før man har ramt den rigtige kombination af husnummer, årstal og reservationsnummer.

Der tænker at en pc hurtige kan gennemløbe de muligheder!

8
24. juni 2013 kl. 23:17

Der tænker at en pc hurtige kan gennemløbe de muligheder!

Ja det er bare dig eftersom en hurtig servietberegning viser, at med en ganske plausibel latenstid på 10 ms per serverforespørgsel, vil det stadig tage 115,7 milliarder dage, før alle "mulighederne er gennemløbet".

1
24. juni 2013 kl. 16:30

...kan søgemaskinerne godt finde på at indeksere sider, på trods af en robots.txt-fil på serveren, som beder om det modsatte. Det sker hvis en bruger med en værktøjslinje fra søgemaskinerne besøger en webside, som ikke er blevet indekseret af den sædvanlige crawler, der konstant holder øje med internettet.

Det må søgemaskinerne vel ikke (hvis ellers robots.txt er lavet korrekt)? Og Python's robotparser tillader det heller ikke.

  1. import robotparser
  2. rp = robotparser.RobotFileParser()
  3.  
  4. rp.set_url("http://www.dancenter.dk/robots.txt")
  5. rp.read()
  6. rp.can_fetch("*", "http://www.dancenter.dk/book/123456789012345678")
melder False.

3
24. juni 2013 kl. 17:22

En Disallow i Robots.txt fortæller kun søgemaskinerne at de ikke må indeksere indholdet. Det forhindrer dem ikke i at indeksere URL'en.

6
24. juni 2013 kl. 22:10

Nu er det jo ikke søgemaskinen der offentliggøre noget, men den person der lægger det på hjemmesiden.

4
24. juni 2013 kl. 17:45

Det er nærliggende at tro at Google bruger indeksering af emails fra feks. gmail. Det kunne forklare hvorfor meget specifikke 18ciffer urls dukker op i søgeresultatet. Så hvis bekræftelsesemailen er sendt til en gmail-konto, så dukker den op i indekseringe . Det er nok lidt far-fetched, men et interessant tankeeksperiment.