Nedbruds-ekspert om SAN-fadæse i ministerium: Simpelthen for ringe

At et fejl i et SAN-styrekort kan få et helt ministerium til at gå i sort er en fadæse af rang, mener ekspert fra Platon Infrastructure.

Det er noget nær en utilgivelig fejl, hvis et helt ministerium kan blive lammet af, at en enkelt komponent fejler. Det er hovedbudskabet fra ekspert i disaster test Michael Frandsen fra Platon Infrastructure.

Svadaen er en reaktion på, at et styrekort til Integrationsministeriets SAN stod af på grund af en strømafbrydelse i det indre København tirsdag morgen, og at ministeriets medarbejdere som følge heraf det meste af dagen ikke havde adgang til deres data.

Læs også: Defekt UPS og SAN-nedbrud lammer it-drift i fire ministerier

»Det er simpelthen for ringe og en fadæse af rang. Normalt har man dubleret både controllerenheden og strømforsyningen til controllerne. Og så skal mindst den ene controller være koblet på UPS'en,« siger Michael Frandsen.

Han tilføjer, at den manglende UPS-strømforsyning burde have været opdaget, hvis Statens IT eller ministeriet selv havde testet it-setup'et mod strømsvigt.

»Men det må have været en fejl helt fra starten. Sådan nogle strømstik, de flytter altså ikke sig selv,« argumenterer han.

Samtidig gør han opmærksom på, at der kan være store konsekvenser forbundet med ikke at dobbeltsikret sin SAN-infrastruktur med UPS'er og sikring mod over- og underspænding, idet det ikke kun er deciderede strømsvigt, der kan medføre fejl. Også ?dårlig strøm? kan medføre fejl i enkelte skrivninger på SAN'et.

»Det kan blive meget uheldigt, hvis der for eksempel ligger Oracle- eller SQL-databaser i SAN'et. En fil er relativt nem at retablere fra backup'en, hvis man et par måneder efter fejlen opdager, at den er korrupt. Men en database, der hele tiden opdateres, er et meget stort arbejde at få retableret, hvis ikke fejlen opdages med det samme.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (7)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#2 Troels Arvin

Når man har med centraliseret storage at gøre, kan det sagtens være, at et helt ministerium kan blive lammet af en lille dims. Netop med et IBM storagesystem oplevede jeg engang, at en koordinations-enhed mellem de dublerede controllere gik i udu, hvorefter der var ballade. Her var der dublering på kabler, diske, strømforsyninger, you name it. Men i og med at der i mange systemer trods alt er højere krav til korrekthed/konsistens end til oppetid, kan en lille koordinations-dims alligevel få stor betydning.

Derfor har jeg meget lidt respekt for, at én eller anden tilfældig konsulent sidder på sidelinjen og bræger om "fadæser".

Der vil ofte være visse komponenter, som har meget stor driftsmæssig betydning. Det skal man lære at leve med; fx ved at have en Plan B afstemt i forhold til potentielle konsekvenser. Så vidt jeg har kunnet læse mig frem til, er der ikke mistet data som følge af nedbruddet, og der er ingen, hvis sikkerhed har været truet. "Fadæse"? - gem venligst den slags ord til andre situationer.

  • 0
  • 0
#5 Anonym

Hvad sker der når NemIds hardwareenhed står af - den som skal kontrollere alle danskeres nøgler !?

Nåja, man henter bare nøglerne over i softwarebackupenheden og fortsætter som om intet var hændt. Eller hvad?

  • 0
  • 0
#7 Anonym

man kan vel få redudante hsm moduler kan man ikke

Nej - ikke uden nøglerne kan eksporteres til et ikke-HSM rum. I sidste ende er det jo kun en påstand at noget er HSM og dem som kontrollerer nøglerne til at påstå at noget er HSM kan dermed også definere et ikke-HSM rum som sådan.

Dette er blot de totalt skalerede sammenbrud af Nemid. Når man designer for failure, så skaber man failure.

  • 0
  • 0
Log ind eller Opret konto for at kommentere