Nedbruds-ekspert om SAN-fadæse i ministerium: Simpelthen for ringe

30. juni 2010 kl. 14:177
At et fejl i et SAN-styrekort kan få et helt ministerium til at gå i sort er en fadæse af rang, mener ekspert fra Platon Infrastructure.
Artiklen er ældre end 30 dage

Det er noget nær en utilgivelig fejl, hvis et helt ministerium kan blive lammet af, at en enkelt komponent fejler. Det er hovedbudskabet fra ekspert i disaster test Michael Frandsen fra Platon Infrastructure.

Svadaen er en reaktion på, at et styrekort til Integrationsministeriets SAN stod af på grund af en strømafbrydelse i det indre København tirsdag morgen, og at ministeriets medarbejdere som følge heraf det meste af dagen ikke havde adgang til deres data.

Læs også: Defekt UPS og SAN-nedbrud lammer it-drift i fire ministerier

»Det er simpelthen for ringe og en fadæse af rang. Normalt har man dubleret både controllerenheden og strømforsyningen til controllerne. Og så skal mindst den ene controller være koblet på UPS'en,« siger Michael Frandsen.

Artiklen fortsætter efter annoncen

Han tilføjer, at den manglende UPS-strømforsyning burde have været opdaget, hvis Statens IT eller ministeriet selv havde testet it-setup'et mod strømsvigt.

»Men det må have været en fejl helt fra starten. Sådan nogle strømstik, de flytter altså ikke sig selv,« argumenterer han.

Samtidig gør han opmærksom på, at der kan være store konsekvenser forbundet med ikke at dobbeltsikret sin SAN-infrastruktur med UPS'er og sikring mod over- og underspænding, idet det ikke kun er deciderede strømsvigt, der kan medføre fejl. Også ?dårlig strøm? kan medføre fejl i enkelte skrivninger på SAN'et.

»Det kan blive meget uheldigt, hvis der for eksempel ligger Oracle- eller SQL-databaser i SAN'et. En fil er relativt nem at retablere fra backup'en, hvis man et par måneder efter fejlen opdager, at den er korrupt. Men en database, der hele tiden opdateres, er et meget stort arbejde at få retableret, hvis ikke fejlen opdages med det samme.

7 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
1
30. juni 2010 kl. 19:00

DS 484 ? det har alle andre under ministerierne skulle forholde sig til/udarbejde ...

MÅske skulle revisorerne lave "et raid" hos dem (en nordjysk tøhø) ;-)

2
30. juni 2010 kl. 20:44

Når man har med centraliseret storage at gøre, kan det sagtens være, at et helt ministerium kan blive lammet af en lille dims. Netop med et IBM storagesystem oplevede jeg engang, at en koordinations-enhed mellem de dublerede controllere gik i udu, hvorefter der var ballade. Her var der dublering på kabler, diske, strømforsyninger, you name it. Men i og med at der i mange systemer trods alt er højere krav til korrekthed/konsistens end til oppetid, kan en lille koordinations-dims alligevel få stor betydning.

Derfor har jeg meget lidt respekt for, at én eller anden tilfældig konsulent sidder på sidelinjen og bræger om "fadæser".

Der vil ofte være visse komponenter, som har meget stor driftsmæssig betydning. Det skal man lære at leve med; fx ved at have en Plan B afstemt i forhold til potentielle konsekvenser. Så vidt jeg har kunnet læse mig frem til, er der ikke mistet data som følge af nedbruddet, og der er ingen, hvis sikkerhed har været truet. "Fadæse"? - gem venligst den slags ord til andre situationer.

3
30. juni 2010 kl. 22:30

Kender du Michael Frandsen? Han er ikke "en tilfældig konsulent", men meget vidende og "no-bullshit". Bortset fra det er da fint at kalde det en fadæse, at et strømsvigt får central infrastruktur til at stå af.

4
30. juni 2010 kl. 23:42

hvis de mister alle data så er det en utilgivelig fejl , at det san ryger på ryggen er set før og bliver set igen ,det er ikke alle der kan sætte penge af til at dublere alt

5
Indsendt af Anonym (ikke efterprøvet) den tor, 07/01/2010 - 00:30

Hvad sker der når NemIds hardwareenhed står af - den som skal kontrollere alle danskeres nøgler !?

Nåja, man henter bare nøglerne over i softwarebackupenheden og fortsætter som om intet var hændt. Eller hvad?

6
1. juli 2010 kl. 08:16

man kan vel få redudante hsm moduler kan man ikke

7
Indsendt af Anonym (ikke efterprøvet) den tor, 07/01/2010 - 09:03

man kan vel få redudante hsm moduler kan man ikke

Nej - ikke uden nøglerne kan eksporteres til et ikke-HSM rum. I sidste ende er det jo kun en påstand at noget er HSM og dem som kontrollerer nøglerne til at påstå at noget er HSM kan dermed også definere et ikke-HSM rum som sådan.

Dette er blot de totalt skalerede sammenbrud af Nemid. Når man designer for failure, så skaber man failure.