Berlingske: Google er skyld i læk af personoplysninger

20 kommentarer.  Hop til debatten
Google burde ikke have indekseret en liste med kontaktoplysninger på Berlingske Nyhedsmagasins nyhedsbrevsmodtagere, forsvarer Berlingske sig. Vrøvl, fejlen er Berlingskes, siger søgemaskineekspert
2. februar 2009 kl. 15:56
errorÆldre end 30 dage

En liste med navn, email, adresse og telefonnummer på flere hundrede abonnenter af Berlingske Nyhedsmagasins nyhedsbrev har ind til i dag kunnet findes via Google.

Berlingske Media svarer nu på, hvordan det har kunnet lade sig gøre.

»Der er tale om en transfer fil, vi har brugt for at overføre data mellem to systemer, som har ligget på en server, vi blandt andet bruger til at sende vores nyhedsbreve ud fra,« siger Stefan Rikard Brieghel, kampagnechef i Berlingske Media til Version2.

Han benægter, at lækken af oplysningerne skyldes en fejl fra Berlingskes eller leverandøren Adnuvos side, men angiver, at det derimod er Google, som har indekseret filer, de ikke burde.

Artiklen fortsætter efter annoncen

»Vi har ikke gjort listen offentlig tilgængelig. Vi har beskrevet i robot.txt-filen, at den ikke skal indekseres af søgemaskiner,« forklarer Stefan Rikard Brieghel og henviser til en mail til Version2, hvori det hedder:

»Google, som nu har fjernet linket fra deres cache, har bekræftet overfor Berlingskes leverandør, at den pågældende server var korrekt opsat og beskyttet, så Googles søgerobotter ikke burde indeksere den og dermed gøre filen offentlig tilgængelig.«

Den udlægning er søgemaskineeksperten Mikkel deMib Svendsen stærkt uenig i.

»Hvis Berlingske har lagt noget på en offentligt tilgængelig server, jamen så ER det offentligt tilgængeligt. Det er dem selv og ikke Google, der gør det tilgængeligt. For hvis Google kan finde listen, så kan du og jeg også,« siger Mikkel deMib Svendsen.

Man kan ifølge Mikkel deMib Svendsen godt kommunikere til Google og andre søgemaskinger via robot.txt eller meta-robot, at de ikke skal indeksere bestemt materiale, men hvis andre brugere har fundet materialet og linket til det ? eller hvis Berlingske selv på den ene eller anden måde har linket til listen ? så er der ingen garanti for, at den ikke dukker op i søgeresultaterne.

Vil ikke ændre proceduren

Stefan Rikard Brieghel forklarer, at man nu har fjernet filen fra serveren, samt at Google har slettet oplysningerne i deres cache, men at Berlingske ikke har tænkt sig at lave om på proceduren. De vil stadig forlade sig på, at en beskrivelse i robot.txt-filen er tilstrækkelig.

»Vi har kørt efter foreskrifterne. Vi følger de standarder og den lovgivning, der er på området. At Google indekserer noget, vi siger de ikke skal, er ikke vores fejl,« siger han.

Endnu en gang er søgemaskineeksperten Mikkel deMib Svendsen uening.

»Helt grundlæggende skal den slags data ikke ligge et sted, hvor alle kan finde det. Og hvis man endelig vil rode sig ud i den slags, må man i det mindste beskytte dem med password eller kryptering. Google hacker altså ikke andre virksomheders websites,« siger Mikkel deMib Svendsen.

20 kommentarer.  Hop til debatten
Debatten
Log ind for at deltage i debatten.
settingsDebatindstillinger
1
2. februar 2009 kl. 17:14

»Vi har kørt efter foreskrifterne. Vi følger de standarder og den lovgivning, der er på området. At Google indekserer noget, vi siger de ikke skal, er ikke vores fejl,« siger han.

Det har nu så længe jeg husker, og haft noget med den slags at gøre, altid været standarden, i de fleste udviklerkredse, at man lægger adgangsbeskyttelse på tilgangen til følsom data. Også selvom det skal flyttes mellem to systemer via en ellers offentlig webserver.

Jeg tror heller ikke at datatilsynet vil være meget anderledes indstillet i den tolkning i forhold til offentliggørelse af følsom data.

Persondataloven siger:

§41 Stk. 3. Den dataansvarlige skal træffe de fornødne tekniske og organisatoriske sikkerhedsforanstaltninger mod, at oplysninger hændeligt eller ulovligt tilintetgøres, fortabes eller forringes, samt mod, at de kommer til uvedkommendes kendskab, misbruges eller i øvrigt behandles i strid med loven. Tilsvarende gælder for databehandlere.

At lave sikkerhed udelukkende ved at håbe på at ingen gætter addressen (Security through obscurity) til filen kan i vore dage ikke betragtes som "fornøden teknisk sikkerhedsforanstaltning" for så vigtig data som e-mail-adresser, som der om noget er personhenførbare nu om dage takket være facebook og lignende tjenester, der ofte er bundet op på brugerens unikke og personlige e-mail-adresse.

Det virker som en fjollet undskyldning fra Berlingske side fordi de ikke vil indrømme at de har lavet en bummert og forsøger at skubbe den videre eftersom der i det nævnte tilfælde rent faktisk er en mulighed for at give Google skylden i og med at de har lavet en indekseringsfejl og så håber man at offentligheden spiser den.

Det er jo en ganske enkel procedurefejl og sikker menneskelig fordi det har skulle gå stærkt eller lignende og så er filen måske ikke blevet slettet igen pga glemsomhed. Så må man sige undskyld, rette fejlen og komme videre. At skyde skylden på en søgemaskine der tilfældig kom forbi virker ansvarsfraskrivende og lidt skidt for hvad der burde være en professionel og ordentlig virksomhed som Berlingske.

Errare humanum est, sed in perseverare diabolicum.

2
2. februar 2009 kl. 17:20

Det kunne faktisk være interessant at vide, hvad Datatilsynet sagde til denne sag. Måske Version2 skulle prøve at tage kontakt til dem?

Ja, egentlig burde en af de ramte personer prøve at anmelde Berlingske til Datatilsynet. En ting er at sløse med tingene, men direkte at melde ud, at man vil fortsætte med at overtræde Persondataloven, er da at stramme den …

3
2. februar 2009 kl. 17:53

Berlingske får aldrig aldrig aldrig mine kontaktoplysninger - magen til lam undskyldning skal man lede længe efter!

18
Indsendt af Anonym (ikke efterprøvet) den tir, 02/03/2009 - 09:00

Jeg er ganske enig.

Google går IKKE ind og indekserer filer, som ikke er offenligt tilgængelige. Det ville svare til, at deres bot forsøgte at hacke (cracke) sig ind, og det er selvfølgelig ikke lovligt heller - hvis det var tilfældet, ville Berlingske vel lægge sag an? Men det har de så gjort, for det må jo være det, de mener er sket?

Det tyder mere på, der er folk ansat hos Berlingske, som reelt ikke aner en brik om, hvad de laver. Og hvad hulen er det for en elendig "undskyldning"?

Fuldstændigt enig med deMib iøvrigt. Der er ikke noget at komme efter hos Google.

Berlingske har mistet al respekt fra min side.

19
3. februar 2009 kl. 09:32

"Vi har gjort som loven foreskriver".... jamen så tænk dog lidt længere end hvad loven foreskriver. Det er så lam en kommentar han kommer med...

20
3. februar 2009 kl. 10:00

Det er i hvert fald tosset at skrive at man har gjort som loven foreskriver, når en nærmere undersøgelse viser at det ikke er tilfældet. For som tidligere nævnt er robots.txt IKKE en sikkerhedsfeature, og data er derfor offentligt tilgængelige på trods af disallow * i en robots.txt.

4
2. februar 2009 kl. 18:08

Hvor patetisk! Tænk at det er den slags folk man betror sine data. ASJ

5
2. februar 2009 kl. 18:23

Hvis man har en fil som ikke skal indekseres af Google så sørger man da i det mindste for ikke at linke til den på offentlige websteder google allerede har indekseret. At man skriver den i robot.txt er en fin tanke men det giver ligepludselig andre systemer mulighed for at finde den. Helt ærligt tror de google er det eneste firma der læser i robot.txt filen. Hvis jeg var kriminel/spammer ville jeg da helt sikkert være mest interreseret i det robot.txt filen siger der ikke skal indekseres.

Den system administrator er fejlen ikke Google. Hvis de søger erstating må det da være for personen der har lavet systemet.

6
2. februar 2009 kl. 19:47

Hvordan kan Google indeksere en fil, hvis der ikke er et link til den pågældende fil ?

Almindeligvis ville en default index.html jo forhindre at et directory kunne ses via en browser eller søgemaskine og det har enhver ansvarlig webredaktør vil på sit site ?!

Martin.

8
2. februar 2009 kl. 20:53

Google kan "se" alt hvad web-serveren kan se - hvis http://www.version2.dk/artikel nu tilfældigvis peger på en folder som web-serveren kan læse så kan Google vandre igennem hele fil-træet nedenunder.

Relative paths virker også hvis serveren er tilpas miskonfigureret.

Hvis man ikke vil have noget vist frem så sørger man for at web-serveren ikke har adgang til det (og hvis man tror at "robots.txt" er en sikkerhedsfaktor så er man en idiot)!

Lidt om Google Hacking:

http://johnny.ihackstuff.com/ghdb.php
http://it.toolbox.com/blogs/managing-infosec/google-hacking-master-list-28302

11
3. februar 2009 kl. 00:57

Det er jo direkte skandaløst at berlingske ikke har styr på indholdet på deres servere. Jeg syntes ikke man skal kaste skylden på den enkelte udvikler for der er noget helt galt med selve strukturen og ledelsen af en it-afdeling når sådan noget forekommer som mere end en engangsfejl.

Desvære syntes jeg tit man ser de mellemstore virksomheder have denne sløsede tilgang til deres interne struktur hvor de implementerer en masse forskellige systemer og slamkoder dem sammen fordi det skal gå stærk istedet for at bruge tiden på at udvikle en ordentlig løsning!

13
3. februar 2009 kl. 01:39

Det tyder på at man har nogle offentligt tilgængelige servere, hvis struktur ikke er generaliseret og/eller at disses indhold ikke er 100% kendt af IT-afdelingen. Det kan aldrig være Googles skyld. Hvis du har noget data der ikke skal deles med omverdenen skal det aldrig ligge på en server uden i det mindste adgangskontrol.

12
3. februar 2009 kl. 01:20

Så hvis Stein Bagger havde skrevet "Må ikke læses af journalister" på sine papirer etc. så havde IT Factory ikke haft nogle problemer ?

7
2. februar 2009 kl. 20:09

Det er jo problemet. Hvis administratoren har skrevet i robots.txt filen at den fil ikke skal indekseres så står den jo netop i den fil der skal sørge for den ikke bliver fundet.

Langt ude men det er det der er problemet.

14
3. februar 2009 kl. 07:26

Google kan "se" alt hvad web-serveren kan se - hvis <a href="http://www.version2.dk/artikel">http://www.version2.dk/artikel</a&gt; nu tilfældigvis peger på en folder som web-serveren kan læse så kan Google vandre igennem hele fil-træet nedenunder.

Det er jo netop derfor man skal forhindre at filtræet kan vises. En nem må er blot at placere en tom index.html i den pågældende folder.

Så kan man sagtens skrive: 'Disallow: /semiprivatstuff/'

i sin robots.txt - ingen (ikke engang Google) kan så se hvilke filer der er i den pågældende mappe. Men selvfølgelig kan man gætte sig til filnavne ala 'password.txt' ;-)

Martin

15
3. februar 2009 kl. 08:14

Jeg håber meget på at vi alle sammen er klar over det, men lige for en sikkerhedsskyld:

At bruge en robots.txt må ALDRIG anses for en et sikkerhedsværktøj. Det har ingen teknisk virkning og er kun en anmodnin gom ikke at crawle bestemte sider og det er derfor kun ikke-onde crawlere der må antages at efterfølge anmodningen.

Er eksempel på en ond webcrawler der ikke følger robots.txt er det danske statslige webarkiv netarkivet.dk. Denne crawler har derfor muligvis allerede listen.

At lave en robots.txt indenholdende 'Disallow: /semiprivatstuff/' er nærmere en sikkerhedsrisiko da det fortæller alverden hvor man lægger private ting.

16
3. februar 2009 kl. 08:28

Er der nogen af jer, der har en kopi liggende af listen og evt kan fortælle mig, om jeg står i den (søg efter efternavnet)?

17
3. februar 2009 kl. 08:33

Du burde med persondataloven i hånden kunne henvende dig til Berlingske og spørge dem om du var på denne liste og i så fald om en log over hvem de har givet listen til.

Kunne faktisk være sjovt, men jeg er ret sikker på at jeg ikke selv er på listen, så jeg har vist ingen 'retslig interesse' eller hvad det nu hedder.