Solidos nedbrud: Switch-software brød sammen

Nedbruddet onsdag hos hostingleverandøren Solido Hosting skyldtes en fejl i softwaren i en switch. Information, Carlsberg og Vestas var blandt de berørte.

Onsdagens to-en-halv time lange nedbrud hos den danske hostingleverandør Solido Hosting skyldtes, at softwaren i en switch-stak fejlede.

Det fortæller administrerende direktør i Solido Hosting, Christer Hasse.

»Det var en dramatisk dag for os, og vi kan selvfølgelig kun beklage hændelsen over for vores kunder,« siger Christer Hasse til Version2.

Problemerne indtraf klokken 12.39 onsdag, hvor der blev observeret unormale trafikmønstre i et af Solido Hostings serverrum hos datacenterleverandøren Interxion i Ballerup.

I det konkrete rum holder kunder som Carlsberg, Vestas, Information, Just-eat og mediekoncernen Egmont til, og deres hjemmesider var helt eller delvist nede i perioden.

Læs også: Timelangt nedbrud hos Solido Hosting rammer Carlsberg og Information

Hos Solido Hosting fandt man omkring klokken 13 ud af, at en core switch-stak, der fordeler trafikken internt, var crashet helt og aldeles.

Al core switching i Solido Hostings setup er redundant, og der benyttes tre særskilte switching-lag, hvor hvert lag udgør sin egen switch-stak.

Den fejlramte switch-stak består af 12 switche, hvoraf en af dem har rollen som master-switch. Den er den styrende enhed i stakken af switche, som rent logisk ses som én switch ude fra.

Da softwaren i master-switchen går ned, går det galt.

»Vi kan endnu ikke forklare 100 procent, hvad der går galt. Men i det øjeblik, masteren dør, dør hele stakken,« siger Christer Hasse.

Koblede switche ind en for en

Switch-stakken blev forsøgt genetableret via fjern-login omkring klokken 13.

Det lykkedes imidlertid ikke, og herefter forsøgte Solido Hostings folk at få stakken på benene igen ved at tage strømmen fra hver enkelt switch og sætte den til igen.

»Det tager længere tid end ventet. Vi begynder med at starte master-switchen op og så fortsætte en for en. Men der går noget tid, før vi finder ud af, at hver enkelt switch skulle have ro til at starte op, før vi startede den næste,« siger Christer Hasse.

Processen fandt sted mellem klokken 13.22 og 15.08, hvorefter load-balancerne i setup'et blev genstartet.

Klokken 15.13 var alt igen tilbage til normalen, og de berørte hjemmesider kunne atter tone frem i browseren.

Men undervejs i forløbet er der flere kunder, som ikke er blevet orienteret om nedbruddet, da nedbruddet også gjorde kundernes kontaktoplysninger utilgængelige.

»Vi har selv haft en del af vores kunderegistrering i det berørte setup, og vi har naturligvis beklaget over for vores kunder, at de ikke har fået besked noget før,« siger Christer Hasse.

Solido Hosting overvejer nu, om der skal skiftes switching-strategi i setup'et. Samtidig overvejes der alternative måder at orientere kunderne på, når uheldet er ude.

Hostingleverandøren planlægger også et møde med producenten af den fejlbehæftede switch for at klarlægge, om den aktuelle fejl er kendt.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (3)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Bjorn Thrane

Det lykkedes imidlertid ikke, og herefter forsøgte Solido Hostings folk at få stakken på benene igen ved at tage strømmen fra hver enkelt switch og sætte den til igen.

»Det tager længere tid end ventet. Vi begynder med at starte master-switchen op og så fortsætte en for en. Men der går noget tid, før vi finder ud af, at hver enkelt switch skulle have ro til at starte op, før vi startede den næste,« siger Christer Hasse.

Kan det virkeligt ikke gøres meget smartere? - hele det beskrevne set-up virker lidt Storm P-agtigt. Hvorfor er start-up processen ikke automatiseret og køres uden menneskehånd?

  • 0
  • 0
#2 Ole Kaas

Jeg har haft en switch-stak der fejlede totalt fordi MOSFET-broen til blæserne i master switchen fejlede. Masteren overophedede og gik så igang med at lukke HELE stakken ned i stedet for blot at lukke ned selv og lade resten af stakken vælge en ny master. Da stakken var ny og klar til drift blev redundansen testet ved at afbryde strømmen til en enkelt switch ad gangen, tilslutte strøm igen og vente på at den startede op inden næste switch blev afbrudt. Det virkede fortræffeligt. De tilsluttede systemer fungerede under hele testen.

/Ole

  • 0
  • 0
Log ind eller Opret konto for at kommentere