Fejlindekserede V2-artikler og skadet SEO: Derfor skal du have styr på testserverens robot.txt-fil

6. august 2020 kl. 02:563
Fejlindekserede V2-artikler og skadet SEO: Derfor skal du have styr på testserverens robot.txt-fil
Illustration: bestforbest | bigstock.
Der er en række ting, man med fordel kan overveje, hvis man arbejder med online testsystemer. Det viste en nylig hændelse i Version2's eget setup.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Det kan resultere i en masse bøvl og gå ud over en virksomheds præstation på Google, hvis testsider pludselig finder vej til techgigantens evigt-indekserende crawlerbot. Især hvis testsiderne er identiske med produktionssiderne.

Det erfarede Version2 og Ingeniøren selv, da en menneskelig fejl under en migrering betød, at flere af mediehusets testsider pludselig ikke var gemt væk bag en VPN, som de plejer. Herunder testsider for Version2.dk og Ing.dk. I en uge var testsiderne derfor tilgængelige for alle og enhver.

»Det var kun en brøkdel af vores indhold, der er blevet indekseret på tværs af vores sites. Vi har hundredtusindvis af indholdssider, så det kunne have været langt værre,« siger Lars Emil Christensen, der er it- og udviklingschef i Teknologiens Mediehus.

Forvirrede Google

Konkret optrådte godt 900 testsider, der lignede vores produktionssites på en prik, i Google’s søgeresultater. Det var forvirrende for Googles crawler, og læserne kunne støde på flere links, som øjensynligt førte til samme artikler. Denne form for forvirrende duplikater ‘straffer’ Google.

Artiklen fortsætter efter annoncen

»Google favoriserer ikke indhold, der er duplikeret, tværtimod, og der er rygter i branchen om hjemmesider, der helt udelukkes fra søgeresultaterne, fordi de har duplikeret indhold,« siger Maria Ejstrup, der er SEO-konsulent hos Ambition. Hun understreger dog, at hun aldrig har oplevet det selv.

»Duplikeret indhold går ud over begge identiske sider, der konkurrerer med hinanden i søgeresultaterne. Det betyder, at ingen af dem får de optimale forudsætninger for at klare sig godt SEO-mæssigt. Man kan komme ud for, at den ikke-originale eller ”forkerte” side vil rangere højere end den originale i Googles indeks - og det er jo ikke hensigtsmæssigt,« siger Maria Ejstrup.

Kan undgås med robot.txt-fil

Duplikeringen kunne være undgået, hvis alle mediehusets testsites havde noteret i deres robot.txt-filer, at der var tale om testsider, der ikke skal indekseres.

»Når man arbejder med Google, er det vigtigt, at man holder fingeren på pulsen, og der er mange ting, der kan gå galt, hvis det tekniske ikke spiller. Det er jeres situation et godt eksempel på,« siger Maria Ejstrup.

Artiklen fortsætter efter annoncen

Den lektie har mediehuset nu lært, og Lars Emil Christensen fortæller, at robot.txt-filen vil indeholde denne instruks fra næste deploy.

Testsider er en kendt angrebsvektor

SEO-hovedpinen, der nu umiddelbart er rettet op efter henvendelse til Google, er ikke det eneste, man skal have in mente, hvis ens testmiljøer ender ude til offentlig skue. Hvad end det er meningen eller ej.

»Hvor slemt det er at få eksponeret ens testmiljøer afhænger blandt andet af, hvordan test- og produktionsmiljøer hænger sammen. Egentlig bør de to miljøer jo være helt adskilt, men vi ser tit i vores arbejde, at det ikke er tilfældet,« siger Claus Vesthammer, der er drifts-direktør og medejer af Improsec, der blandt andet lever af at pen-teste it-systemer.

»Produktionssystemer er oftere opdateret med de seneste sikkerhedstiltag end testsystemer, og testsystemer har desuden en tendens til at have en noget løsere omgang med brugerrettigheder,« siger Claus Vesthammer og fortsætter:

»Det vil sige, at hvis de hænger sammen, kan man kompromittere testsystemet og overtage produktionen derfra, og vi har flere gange kompromitteret produktionssystemer på netop dén måde.«

et af flere eksempler på duplikerede artikler i søgeresultaterne.

Brugerdatabase ikke berørt

Det er imidlertid ikke tilfældet for de testsider fra mediehuset, der blev lagt frem til offentlig skue, fortæller Lars Emil Christensen:

»Vores testservers kører samme version som vores produktionsservere, med samme sikkerhedsindstillinger og sikkerhedspatches. Hvis man forsøgte at logge ind, ville man blive mødt med en fejlmeddelelse, idet brugerdatabasen stadig var gemt bag VPN,« siger Lars Emil Christensen.

»Overvej ‘legeartikler’«

Både Maria Ejstrup og Claus Vesthammer, der begge hver især oplever, at testmilljøer skaber problemer for deres kunder, hæfter sig ved, at mediehusets testsider ligner produktionssiderne på en prik.

Artiklen fortsætter efter annoncen

»Det er bestemt at betragte som en risiko, at man eksponerer et testsystem - især hvis det er en tro kopi af produktionsmiljøet. Generelt kan man sige, at produktionen måske nok er sikret mod sårbarheder, men ikke mod effekten af et kompromitteret testsystem,« siger Claus Vesthammer.

»Vil man mindske denne risiko, kan man sørge for, at testsitet godt nok er identisk med produktionssitet, dog som minimum adskilt fra produktionsmiljøet og med unikke credentials,« lyder sikkerhedskonsulentens råd.

»Hav derfor 'lege-artikler' og ikke virkelige artikler, da det mindsker risikoen, idet der ikke er tale om to helt identiske systemer.«

Dette ville også sikre sidernes SEO-præstationer. Skulle en lignende fejl ske igen, vil der ikke være tale om duplikeret indhold, og søgemaskiners algoritmer ville ikke sanktionere siderne og skade mediehusets evne til at rangere højt i søgninger.

Beholder identisk testsystem

Det vil dog ikke blive tilfældet, idet værdien af identiske sites er større end den sikkerhedsrisiko, det udgør, vurderer it-chefen:

»Vores testsites er indholdsmæssigt kopier af vores produktionssites, fordi vi gerne vil have, at de er så tæt på virkeligheden som muligt. Også rent sikkerhedsmæssigt. Uden rigtige artikler får man ikke det fulde billede, når vi eksempelvis kører vores automatiske tests af ny kode,« siger Lars Emil Christensen.

»Alt i alt er det her træls SEO-mæssigt, men jeg er ikke ekstraordinært bekymret over vores it-sikkerhed omkring testserverne,« siger Lars Emil Christensen, og påpeger, at der i flere omgange er hentet ekspertise udefra i forbindelse med at kvalitetssikre it-sikkerheden i huset.

3 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
3
7. august 2020 kl. 15:51

User-agent: * Diallow: /https://magento.olelynggaard.com/robots.txt

Der er også de sjove, hvor leverandøren bliver reddet af at lave to fejl i stedet for én.

Havde de været i stand til at stave til 'disallow', så ville have blokeret billedfiler og js-filer, som ville have forhindret Google i at rendere siden og dermed vurdere brugervenligheden (hvilket ville sænke placeringen).

2
6. august 2020 kl. 12:11

Nu er det 14 år siden jeg arbejdede med det, men hedder filen ikke robots.txt , altså i flertal?

Jeg kan huske emnet har været debateret flere gange af v2s brugere, og v2 har også haft flere artikler om emnet, f.eks.:

2013: https://www.version2.dk/artikel/soegemaskine-mystik-hos-danland-sender-private-brugerdata-i-grams-52686

2008: https://www.version2.dk/artikel/robotstxt-viser-hackeren-vej-8873

Så måske skulle V2 lære af andres fejl som V2 skriver artikler om før det sker for V2 selv? Bare en idé! ;)

1
6. august 2020 kl. 09:26

Hvis det ikke anses som "sikkert nok" med robots.txt eller noindex,nofollow meta tags (de kan jo lige så nemt ende i production ved en fejl - som faktisk er endnu værre, da alt content så forsvinder rigtig hurtigt), så kan man smide password beskyttelse på og evt. kun tillade firmaets ip-adresser uden password.

Helt konkret giver Apache mulighed for det via .htaccess, og med NGINX er der f.eks. auth_basic der kan sættes op i en server block.

Google indekserer ikke noget der er password på - så man kan sagtens have demo:demo (eller ip-adresser) som login på staging/testserver:)


En bonus kunne være at smide canonical links på til det rigtige domæne på alle siderne. Skulle de så være synlige, peger de selv på "live siden" som den der skal honoreres seo-mæssigt.