Et af Danmarks mest besøgte websites, dr.dk, var onsdag formiddag utilgængelig, så de besøgende blot fik en time-out-fejl. Sitet var først oppe igen klokken 14:43.
»Vi er selvfølgelig ærgerlige over, at sådan en fejl kan ske. Det er overhovedet ikke tilfredsstillende,« siger underdirektør i DR Teknologi, Mikkel Müller til Version2.
Problemet var cache-serveren, der er en afgørende del af den infrastruktur, der skal give brugerne adgang til DR's websites.
»Vi er ikke helt i bund med fejlsøgningen, men cirka klokken 11 gik vores cache-server ned. Cache-serverne håndterer næsten hele loadet på dr.dk, så uden den fungerer sitet ikke,« forklarer Mikkel Müller.
Da serveren gik ned, aktiverede teknikerne i DR beredskabet, der indebærer samling af en task force, der skal finde frem til fejlen og løse den. Selvom sitet var oppe igen onsdag eftermiddag, vil task forcen fortsat holde øje med, om problemerne skulle komme igen. Samtidigt undersøges det, hvordan en lignende fejl kan undgås i fremtiden.
»Det er en superalvorlig hændelse, og det har vi en fast procedure for at håndtere. Men desværre tog det lang tid at finde og udbedre fejlen i denne situation,« forklarer Mikkel Müller.
DR benytter Drupal som CMS, men de fleste får vist en cachet version af siderne på DR's website. Det går mange gange hurtigere og belaster systemet en brøkdel i forhold til at skulle generere alle sidevisninger direkte fra CMS'et.
Problemet var i dette tilfælde, at cache-serveren blev overbelastet med for mange aktive connections på grund af et problem med ét af DR's egne, bagvedliggende API'er. Efter fejlen blev identificeret, tog det dog tid at få startet hele infrastrukturen korrekt op igen.
»Vi havde en udfordring med at få startet vores caching op igen, som vi fik ekstern assistance til at løse. Vi var nødt til at starte cachen op langsomt, fordi vi ellers vil lægge den bagvedliggende infrastruktur ned, når alle siderne skal gencaches. Derfor kunne man på et tidspunkt godt komme ind på forsiden af dr.dk, men nogle af artiklerne var endnu ikke cachet,« forklarer Mikkel Müller.
DR's task force arbejdede onsdag eftermiddag fortsat på at sikre, at systemerne igen kørte normalt uden behov for yderligere tiltag.
Version2.dk og søstersitet Ing.dk havde også driftsproblemer onsdag. Ligesom DR kører disse sites også Drupal, men problemerne var et tilfældigt sammenfald. Problemerne på Version2.dk og Ing.dk skyldtes en autogenereret sql-forespørgsel, som skabte en lock-condition på databaseserveren. Til trods for databaseserverens kapacitet, betød det, at Version2.dk i perioder på cirka hvert 20. minut holdt op med at svare.