Det kan resultere i en masse bøvl og gå ud over en virksomheds præstation på Google, hvis testsider pludselig finder vej til techgigantens evigt-indekserende crawlerbot. Især hvis testsiderne er identiske med produktionssiderne.
Det erfarede Version2 og Ingeniøren selv, da en menneskelig fejl under en migrering betød, at flere af mediehusets testsider pludselig ikke var gemt væk bag en VPN, som de plejer. Herunder testsider for Version2.dk og Ing.dk. I en uge var testsiderne derfor tilgængelige for alle og enhver.
»Det var kun en brøkdel af vores indhold, der er blevet indekseret på tværs af vores sites. Vi har hundredtusindvis af indholdssider, så det kunne have været langt værre,« siger Lars Emil Christensen, der er it- og udviklingschef i Teknologiens Mediehus.
Forvirrede Google
Konkret optrådte godt 900 testsider, der lignede vores produktionssites på en prik, i Google’s søgeresultater. Det var forvirrende for Googles crawler, og læserne kunne støde på flere links, som øjensynligt førte til samme artikler. Denne form for forvirrende duplikater ‘straffer’ Google.
»Google favoriserer ikke indhold, der er duplikeret, tværtimod, og der er rygter i branchen om hjemmesider, der helt udelukkes fra søgeresultaterne, fordi de har duplikeret indhold,« siger Maria Ejstrup, der er SEO-konsulent hos Ambition. Hun understreger dog, at hun aldrig har oplevet det selv.
»Duplikeret indhold går ud over begge identiske sider, der konkurrerer med hinanden i søgeresultaterne. Det betyder, at ingen af dem får de optimale forudsætninger for at klare sig godt SEO-mæssigt. Man kan komme ud for, at den ikke-originale eller ”forkerte” side vil rangere højere end den originale i Googles indeks - og det er jo ikke hensigtsmæssigt,« siger Maria Ejstrup.
Kan undgås med robot.txt-fil
Duplikeringen kunne være undgået, hvis alle mediehusets testsites havde noteret i deres robot.txt-filer, at der var tale om testsider, der ikke skal indekseres.
»Når man arbejder med Google, er det vigtigt, at man holder fingeren på pulsen, og der er mange ting, der kan gå galt, hvis det tekniske ikke spiller. Det er jeres situation et godt eksempel på,« siger Maria Ejstrup.
Den lektie har mediehuset nu lært, og Lars Emil Christensen fortæller, at robot.txt-filen vil indeholde denne instruks fra næste deploy.
Testsider er en kendt angrebsvektor
SEO-hovedpinen, der nu umiddelbart er rettet op efter henvendelse til Google, er ikke det eneste, man skal have in mente, hvis ens testmiljøer ender ude til offentlig skue. Hvad end det er meningen eller ej.
»Hvor slemt det er at få eksponeret ens testmiljøer afhænger blandt andet af, hvordan test- og produktionsmiljøer hænger sammen. Egentlig bør de to miljøer jo være helt adskilt, men vi ser tit i vores arbejde, at det ikke er tilfældet,« siger Claus Vesthammer, der er drifts-direktør og medejer af Improsec, der blandt andet lever af at pen-teste it-systemer.
»Produktionssystemer er oftere opdateret med de seneste sikkerhedstiltag end testsystemer, og testsystemer har desuden en tendens til at have en noget løsere omgang med brugerrettigheder,« siger Claus Vesthammer og fortsætter:
»Det vil sige, at hvis de hænger sammen, kan man kompromittere testsystemet og overtage produktionen derfra, og vi har flere gange kompromitteret produktionssystemer på netop dén måde.«
Brugerdatabase ikke berørt
Det er imidlertid ikke tilfældet for de testsider fra mediehuset, der blev lagt frem til offentlig skue, fortæller Lars Emil Christensen:
»Vores testservers kører samme version som vores produktionsservere, med samme sikkerhedsindstillinger og sikkerhedspatches. Hvis man forsøgte at logge ind, ville man blive mødt med en fejlmeddelelse, idet brugerdatabasen stadig var gemt bag VPN,« siger Lars Emil Christensen.
»Overvej ‘legeartikler’«
Både Maria Ejstrup og Claus Vesthammer, der begge hver især oplever, at testmilljøer skaber problemer for deres kunder, hæfter sig ved, at mediehusets testsider ligner produktionssiderne på en prik.
»Det er bestemt at betragte som en risiko, at man eksponerer et testsystem - især hvis det er en tro kopi af produktionsmiljøet. Generelt kan man sige, at produktionen måske nok er sikret mod sårbarheder, men ikke mod effekten af et kompromitteret testsystem,« siger Claus Vesthammer.
»Vil man mindske denne risiko, kan man sørge for, at testsitet godt nok er identisk med produktionssitet, dog som minimum adskilt fra produktionsmiljøet og med unikke credentials,« lyder sikkerhedskonsulentens råd.
»Hav derfor 'lege-artikler' og ikke virkelige artikler, da det mindsker risikoen, idet der ikke er tale om to helt identiske systemer.«
Dette ville også sikre sidernes SEO-præstationer. Skulle en lignende fejl ske igen, vil der ikke være tale om duplikeret indhold, og søgemaskiners algoritmer ville ikke sanktionere siderne og skade mediehusets evne til at rangere højt i søgninger.
Beholder identisk testsystem
Det vil dog ikke blive tilfældet, idet værdien af identiske sites er større end den sikkerhedsrisiko, det udgør, vurderer it-chefen:
»Vores testsites er indholdsmæssigt kopier af vores produktionssites, fordi vi gerne vil have, at de er så tæt på virkeligheden som muligt. Også rent sikkerhedsmæssigt. Uden rigtige artikler får man ikke det fulde billede, når vi eksempelvis kører vores automatiske tests af ny kode,« siger Lars Emil Christensen.
»Alt i alt er det her træls SEO-mæssigt, men jeg er ikke ekstraordinært bekymret over vores it-sikkerhed omkring testserverne,« siger Lars Emil Christensen, og påpeger, at der i flere omgange er hentet ekspertise udefra i forbindelse med at kvalitetssikre it-sikkerheden i huset.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.