

Det var en fejlkæde på tre trin hos Statens It, der førte til, at 35.000 ansatte i staten blev afskåret fra nettet i et omfattende nedbrud dagen før Store Bededag.
Det fortæller Michael Ørnø, der er direktør i Statens It, hvor det store nedbrud fandt sted.
- emailE-mail
- linkKopier link

Fortsæt din læsning
- Sortér efter chevron_right
- Trådet debat
Tak til Statens IT for at vove pelsen og fortælle, hvad der skete.
Jeg har det lidt skidt med de mange folk, der sidder og sviner Statens IT til "fra bagsædet". Jeg har endnu ikke arbejdet et sted, hvor infrastrukturen var perfekt.
Jeg håber, at Statens IT generelt anvender versioneret "desired state" agtige værktøjer i stil med Ansible og noget peer review. Eller at de i hvertfald har en plan om det.
Tak til Statens IT for at vove pelsen og fortælle, hvad der skete.
Enig, det er yderst positivt.
Og ja, det er nemt at kloge sig fra bagsædet. Men der bør være høje krav til en organisation, der varetager en så samfundskritisk infrastrukturopgave. Selvfølgelig kan fejl ikke undgås, men de kan minimeres ved brug af egnede værktøjer og arbejdsgange.
Mit indtryk er, at Statens It netop ikke anvender sådanne værktøjer, og det bør der rettes op på.
Jeg bliver harm over at læse hændelsesforløbet bag dette nedbrud. Jeg synes det fremgår med stor tydelighed at mange best-practices er blevet tilsidesat i infrastruktur som er rygraden for statslige IT-systemer.
For mig at se ligger fejlen her først og fremmest i ledelsen og i processer. Jeg vælger at tro på at medarbejderne har arbejdet med de værktøjer, rammer, ressourcer og kompetencer der har været til rådighed ved etableringen af infrastrukturen og den daglige drift. Baseret på øvrige kommentarer her i kommentarsporet fristes man til at tro at man fra ledelsens side tilsyneladende ikke haft den nødvendige forståelse for de risici der var forbundet med den etablerede "modus operandi" og reageret i tide.
Det synes tangerende til uansvarligt ikke at have strikse processer for change management, inkl. detaljeret review af ændringer, samt automatiseret konfigurationsstyring af alle komponenter i netværket. Ligeledes at et testsystem kan bringe et produktionssystem i knæ er foruroligende. Nogen må have besluttet at dette er en accepteret risiko. På trods af at infrastrukturen i særdeleshed må være betegnet som kritisk infrastruktur.
Jeg tør ikke tænke på hvad der ellers ligger og lurer af uhensigtsmæssigheder i Statens IT, som endnu ikke har været ramt af "the perfect storm".
Automatisering af port og switchopsætning, der kører HVER dag og hele tiden - og VERIFICERER at ting er sat korrekt op - og evt. "tilladte undtagelser" - ryger på en godkendelsesliste, og får en max levetid før de popper op igen.. Sådan styrer man al infrastruktur IMHO
Nu spørger jeg sikkert dumt, men:
Er det ikke muligt at automatisere opsætningen af porte på switches ud fra prædefineret roller?
Således at stormsikringen og andre standard værdier bliver aktiveret helt automatisk hver gang man fortæller switchen at der sidder en server i en given port.
Her tænker jeg lidt på Ansibles rollemodel i denne sammenhæng.
Er det ikke muligt at automatisere opsætningen af porte på switches ud fra prædefineret roller?
Spørgsmålet er hvor mange roller det ville kræve i en blandet landhandel som Statens IT ?
Husk at de ikke selv udvikler systemerne, en eller anden myndighed kommer og siger "kør der her..." og peger på resterne af en eller anden IT-skandale lavet af guderne vide hvem...
Det er dybt uprofessionelt det setup. Switches er manuelt konfigureret port for port, og det samme med servere. Det kan godt være vi ikke har testmotorveje, men Vejdirektoratet behandler dem de har med behørig respekt for forbrugerne.
Jeg ved ikke om man skal græde mest over hvor dårligt og uprofessionelt setup mv. er, eller den helt og aldeles latterlige udlægning af forløbet som gives af Ørnø. Det som sker her kan og må ikke ske, og der må slet ikke gå 4 timer inden man får fundet ud af hvad der er galt og får lukket en server (i en båd der har man skotter man kan lukke når en del af båden er læk). Man havde ikke vedligholdt sit skot (port), så det kunne virke efter hensigten ved en læk, og når dette skete så var løsningen at sænke båden.
Vejdirektoratet har forstand på veje, Banedanmark har forstand på jernbaner, Statens It har IKKE forstand på IT, det er vel ret bekymrende....
(i en båd der har man skotter man kan lukke når en del af båden er læk).
Der er nok især tale om skibe. Og i visse skibe hjælper det ikke, hvis vandet kan finde andre veje. Her tænker jeg på en berømmelig norsk fregat. Man kan også nævne Titanic, men sidstnævnte gik dog langsommere ned end Statens IT.
Her tænker jeg på en berømmelig norsk fregat
OT: Jeg har brudt min hjerne, men jeg kan simpelthen ikke komme på hvilken norsk fregat, der er tale om.
Google havde svar. Det er nok denne:https://da.wikipedia.org/wiki/Kollisionen_ved_Stureterminalen_2018#Efterspil
Helt enig med #2.
Statens It er notorisk ved at al konfiguration sker manuelt, åbenbart ved at klikke sig frem i diverse skærmbilleder. Der er ingen forståelse for, hvor mange fejlkilder, det kan medføre.
For eksempel er det ikke ualmindeligt hos Statens It, at firewallregler forsvinder ved en opgradering. Og hvis man som kunde hos Statens It beder om en liste over alle firewallregler, får man efter laang tid et regneark, der tydeligvis er lavet manuelt, og hvor format (inklusiv skrifttyper og farver) skifter undervejs.
Det er så håbløst uprofessionelt, at det er et under, at tingene ikke går horribelt galt meget oftere.
"Det er lidt ligesom, at vi ikke har testmotorveje i Danmark". Det var godt nok heldigt, at han ikke skrev "testjernbaner" - for det har vi.