Robots.txt viser hackeren vej

Filen, der kan bruges til at formene søgemaskiner adgang til visse områder af et site, kan også fungere som guide for hackere.

Robots.txt hedder filen på webservere, der kan bruges til at fortælle søgemaskiner, hvilke dele af et site de må indeksere, men også hvad de skal holde sig fra. Robots.txt kan imidlertid også misbruges af hackere.

Jason Rader er sikkerhedskonsulent i RSA, der er en it-sikkerhedsvirksomhed under EMC. Han er i disse dage i Danmark for at holde foredrag om it-sikkerhed, og version2.dk har mødt ham i den forbindelse.

Han forklarer, at robots.txt-filer, der fortæller søgemaskiner, hvad de ikke skal indeksere, samtidig risikerer at fungere som en vejviser for eksempelvis hackere.

»Hvis du laver en søgning efter robots.txt, så kan du se, hvor de ikke vil have dig til at gå hen. Og nogle gange er det tilmed muligt at omgå sikkerhedsforanstaltninger, fordi man kan tilgå en fil direkte, hvilket betyder at man ikke går via front-enden, hvor man skal autentificere sig,« siger Jason Rader.

Den danske sikkerhedsekspert Peter Kruse fra virksomheden CSIS kan nikke genkendende til problemet ved at bruge robots.txt.

Han anbefaler, at man i stedet for at ekskludere områder via tekstfilen benytter indeks-filer i alle mapper, slår mappe-listing fra på webserveren og i det hele taget lader være med at linke til de 'hemmelige' områder på sitet fra søgemaskinetilgængelige sider på domænet.

»Hvis du lægger en mappe, der hedder 'fnuttelihut' i roden på webserveren, og der ikke er ikke er mappe-listing til den mappe, og der ikke er nogen reference på siden til mappen, så finder Google den aldrig. Så man gør egentlig ondt værre ved at putte den ind i robots.txt,« siger Peter Kruse.

Security by obscurity
Generelt mener Jason Rader, det er en dårlig idé at foranledige sig på det, han kalder security by obscurity for at beskytte sit site. Udtrykket bruges om sikkerhedsløsninger, der forsøger at opnå sikkerhed ved at hemmeligholde eksempelvis en URL.

»Jeg tror, mange organisationer stadig bruger security by obscurity - ingen kender til det, og derfor er det sikkert,« mener Jason Rader.

Problemet i forhold til robots.txt er i følge Peter Kruse ganske reelt. CSIS har selv brugt robots.txt-søgninger til at finde url'er, som it-kriminelle bruger til at dumpe eksempelvis lister med stjålne kreditkortnumre. Desuden nævner han et konkret eksempel, hvor søgningerne gjorde det muligt at omgå sikkerheden i et specifikt CMS.

»Jeg forstår ikke, hvorfor man anvender robots.txt på den måde. Normalt er funktionen lavet til at fortælle søgemaskinerne, hvad man gerne ville have skulle samles op,« siger Peter Kruse med henvisning til at udelukke søgemaskiner fra site-områder via robots.txt.

Også Jason Rader kan komme med eksempler fra den virkelige verden, hvor robots.txt har givet adgang til en stor amerikansk avis' hjemmeside, hvor det var meningen, der kun skulle være adgang til avisens arkiv for betalende brugere.

»De sælger en løsning, hvor man kan tilgå deres arkiver, men det koster penge. Men hvis du kigger på robots.txt, så kan man tilgå det direkte uden om sikkerheden. Det var sidste år, så det kan godt være, de har løst det nu,« siger han.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (6)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Jan Keller Catalan

Han anbefaler, at man i stedet for at ekskludere områder via tekstfilen benytter indeks-filer i alle mapper, slår mappe-listing fra på webserveren og i det hele taget lader være med at linke til de 'hemmelige' områder på sitet fra søgemaskinetilgængelige sider på domænet.

Eller endnu bedre - hvor kontroversielt og underligt dette forslag end må være - [i]ret problemet![/i]

Hvis ikke det er meningen at man skal tilgå bestemt indhold uden at være logget ind, så [i]lad være med at tillade, at man tilgår indholdet uden at være logget ind[/i].

Det er muligvis ikke noget, en webserveradmin kan klare på en halv time, men det er da en fantastisk meget bedre løsning end at tilføje mere obscurity uden security.

  • 0
  • 0
#3 Søren Koch

Ja f.eks kunne man gøre som jeg ved at have en database over alle de dokumenter/hjemmesider man vil lade folk have rettigheder til at se (samt et index over brugere og hvad de må se) og så have et script der ud fra brugeridentifikation henter filplacering fra databasen og printer det dokument de skal de fra en lokation som webserveren ikke selv kan se (kræver selvf at scriptet er ordentligt lavet så det ikke kan misbruges/hackes til at vise vilkårligt filindhold, dvs validerer alle input korrekt før de bruges, kun bruger parameteriserede databse queries osv.)

Dette er faktisk ikke så svært endda, det kræver blot at man fra starten tænker på frasen 'need to know basis' eller som andre siger det 'Default Deny'

  • 0
  • 0
#4 Thomas Ammitzbøll-Bach

En stor del af sikkerheden ved et hus kan opnås ved at lade være med at lægge havefliser. Havefliserne leder hen til døre, der jo kan være ulåst. Ved ikke at lægge havefliser, afskærer man indbrudstyven fra at finde de ulåste døre.

Man kan også installere gode låse, men det er langt indgribende og gør det mere besværligt for beboerne at komme ud og ind.

Thomas

PS: Man behøver jo ikke at skrive alle filer, man ikke vil have indekseret. Man kan nøjes med at angive præfikser til de områder, der er uinteressante at få indekseret. Typisk er det jo dynamisk indhold, der skifter så hurtigt og forsvinder, at det bare vil resultere i en masse døde links.

PPS: Man kan lave sider, der genererer tilfældige email-adresser. Spam-høstere kan så høste en masse nonsense-adresser. Hvis URLerne også er genererede, så kan den hygge sig i dagevis.

  • 0
  • 0
#5 Anonym

En stor del af sikkerheden ved et hus kan opnås ved at lade være med at lægge havefliser. Havefliserne leder hen til døre, der jo kan være ulåst. Ved ikke at lægge havefliser, afskærer man indbrudstyven fra at finde de ulåste døre.

Det er jo netop Security by obscurity, og anses ikke for særlig sikkert.

PPS: Man kan lave sider, der genererer tilfældige email-adresser. Spam-høstere kan så høste en masse nonsense-adresser. Hvis URLerne også er genererede, så kan den hygge sig i dagevis.

Jep, jeg har præcis sådan en side med mail adresser :D

  • 0
  • 0
#6 Jan Keller Catalan

Thomas, jeg tror, Thomas var ironisk - jeg synes i hvert tilfælde, det illustrerer CSIS' anbefaling fint. Hvorvidt man skal "slå igen" med automatisk genererede sider fyldt med email-adresser er jeg mere tilbageholdende med.

Tror hellere, jeg ville implementere ordentlig struktur i mit indhold. Det meste indhold nutildags er jo alligevel dynamisk genereret, så man må vel kunne tilføje et rettigheds-tjek inden man returnerer det.

og @Stig: Et sitemap er meningen at skal vise det indhold, man GERNE vil have indekseret. Robots.txt er til det indhold, man IKKE vil have indekseret. Så sitemaps er det diamentralt modsatte til robots.txt og derfor ikke et problem i denne henseende.

  • 0
  • 0
Log ind eller Opret konto for at kommentere