Nedbruds-ekspert om SAN-fadæse i ministerium: Simpelthen for ringe
Det er noget nær en utilgivelig fejl, hvis et helt ministerium kan blive lammet af, at en enkelt komponent fejler. Det er hovedbudskabet fra ekspert i disaster test Michael Frandsen fra Platon Infrastructure.
Svadaen er en reaktion på, at et styrekort til Integrationsministeriets SAN stod af på grund af en strømafbrydelse i det indre København tirsdag morgen, og at ministeriets medarbejdere som følge heraf det meste af dagen ikke havde adgang til deres data.
Læs også: Defekt UPS og SAN-nedbrud lammer it-drift i fire ministerier
»Det er simpelthen for ringe og en fadæse af rang. Normalt har man dubleret både controllerenheden og strømforsyningen til controllerne. Og så skal mindst den ene controller være koblet på UPS'en,« siger Michael Frandsen.
Han tilføjer, at den manglende UPS-strømforsyning burde have været opdaget, hvis Statens IT eller ministeriet selv havde testet it-setup'et mod strømsvigt.
»Men det må have været en fejl helt fra starten. Sådan nogle strømstik, de flytter altså ikke sig selv,« argumenterer han.
Samtidig gør han opmærksom på, at der kan være store konsekvenser forbundet med ikke at dobbeltsikret sin SAN-infrastruktur med UPS'er og sikring mod over- og underspænding, idet det ikke kun er deciderede strømsvigt, der kan medføre fejl. Også ?dårlig strøm? kan medføre fejl i enkelte skrivninger på SAN'et.
»Det kan blive meget uheldigt, hvis der for eksempel ligger Oracle- eller SQL-databaser i SAN'et. En fil er relativt nem at retablere fra backup'en, hvis man et par måneder efter fejlen opdager, at den er korrupt. Men en database, der hele tiden opdateres, er et meget stort arbejde at få retableret, hvis ikke fejlen opdages med det samme.
Kommentarer (7)
DS 484 ? det har alle andre under ministerierne skulle forholde sig til/udarbejde ...
MÅske skulle revisorerne lave "et raid" hos dem (en nordjysk tøhø) ;-)
Når man har med centraliseret storage at gøre, kan det sagtens være, at et helt ministerium kan blive lammet af en lille dims. Netop med et IBM storagesystem oplevede jeg engang, at en koordinations-enhed mellem de dublerede controllere gik i udu, hvorefter der var ballade. Her var der dublering på kabler, diske, strømforsyninger, you name it. Men i og med at der i mange systemer trods alt er højere krav til korrekthed/konsistens end til oppetid, kan en lille koordinations-dims alligevel få stor betydning.
Derfor har jeg meget lidt respekt for, at én eller anden tilfældig konsulent sidder på sidelinjen og bræger om "fadæser".
Der vil ofte være visse komponenter, som har meget stor driftsmæssig betydning. Det skal man lære at leve med; fx ved at have en Plan B afstemt i forhold til potentielle konsekvenser. Så vidt jeg har kunnet læse mig frem til, er der ikke mistet data som følge af nedbruddet, og der er ingen, hvis sikkerhed har været truet. "Fadæse"? - gem venligst den slags ord til andre situationer.
Kender du Michael Frandsen? Han er ikke "en tilfældig konsulent", men meget vidende og "no-bullshit". Bortset fra det er da fint at kalde det en fadæse, at et strømsvigt får central infrastruktur til at stå af.
hvis de mister alle data så er det en utilgivelig fejl , at det san ryger på ryggen er set før og bliver set igen ,det er ikke alle der kan sætte penge af til at dublere alt
Hvad sker der når NemIds hardwareenhed står af - den som skal kontrollere alle danskeres nøgler !?
Nåja, man henter bare nøglerne over i softwarebackupenheden og fortsætter som om intet var hændt. Eller hvad?
man kan vel få redudante hsm moduler kan man ikke
Nej - ikke uden nøglerne kan eksporteres til et ikke-HSM rum. I sidste ende er det jo kun en påstand at noget er HSM og dem som kontrollerer nøglerne til at påstå at noget er HSM kan dermed også definere et ikke-HSM rum som sådan.
Dette er blot de totalt skalerede sammenbrud af Nemid. Når man designer for failure, så skaber man failure.

