Leverandørfejl slukkede for sundhed.dk: Glemte at tænde for strømmen
De sidste to søndage har borgere ikke kunnet tilgå sundhed.dk og MinSundhed, der blandt andet bruges til at se resultater på corona-prøver.
Og nu viser det sig, at forrige weekends nedbrud skyldtes, at en underleverandør simpelthen havde glemt at tilslutte et strømkabel.
Det fremgår af en redegørelse som Sundhed.dk’s leverandør, DXC, har lavet til Sundhed.dk, og som Version2 har fået aktindsigt i.
I redegørelsen skriver DXC, at miseren skyldes en fejl hos en underleverandør, der ikke havde fået tilsluttet sine kabler.
Angivet som fejlens "root cause" i redegørelsen, står der:
»I en planlagt månedlig testkørsel af alle generatorer af vores leverandør, CBRE, gjorde en menneskelig fejl fra tredjepartsunderleverandør, hvor der ikke blev tilsluttet kabler igen efter årlig vedligeholdelse, at vi fik en strømafbrydelse,« skriver DXC.
Anden gang under pandemien
Det er ikke første gang under coronapandemien, at Sundhed.dk og den tilsvarende app har været sendt til tælling på grund af problemer hos DXC. I september sidste år kunne Version2 fortælle, hvordan en strømafbrydelse dengang lagde tjenesten ned i mere end 24 timer.
En aktindsigt i sidste års hændelse viste, at afbrydelsen skete, fordi man ville afkoble et SMB-rack, der ikke længere blev brugt. Men det var ved en fejl koblet på to andre racks, der stadig var i brug.
Hos Sundhed.dk ser man på nedbruddene med alvor:

Man har forskellige underleverandører på kablerne, man beder om tegninger der viser forløbet, man sikrer at entrypoint i datacentre er forskellige, etc. Detaljerne var jeg ikke del af. Men hele ideen er at sikre sig at der ikke er noget single point of failure. I tilfældet sundhed.dk så var on/off knappen (eller strømkablet) single point of failure - det er den historie vi har fået. Det lyder helt tåbeligt.
Se den slags er jo fornuftigt nok. Det er også fornuftigt nok, at man lige ser, om tingene kører, når en underleverandør melder klar.
Men hvordan tjekker man egentlig, at kablerne ikke krydser?
Hvis man ringer efter en elektriker, så vil man uden videre gå ud fra, at der kommer en uddannet elektriker. Man plejer ikke (jeg plejer ikke) kræve at se uddannelsesbevis eller hvad det nu hedder. Hvis noget bliver lavet forkert og det fører til en ulykke, så er det ikke mit ansvar. Med mindre jeg har ringet til en gammel ven, der sætter bøjede søm i sikringsholderne og derfor har styr på tingene.
Noget lignende bør gælde for offentlige instanser og mere eller mindre private. Hvis man har givet en opgave til en, der er kvalificeret (eller hævder at være det), så må man have gjort sit. Ellers vil man altid skulle have folk i huset.
Til daglige opgaver er det fint at have folk i huset, men der må være grænser.
Jeg går stærkt ud fra, at DXC taler med store bogstaver til deres underleverandør.
Her skulle stå en anekdote om Civilforsvaret, men den dropper jeg.
Det offentlige og andre skal vurdere kritikaliteten af hvert enkelt system. Hvis noget er tilstrækkeligt kritisk så er man nødt til at gå efter nul fejl eller tilstrækkelig redundans. Det er uagtet om de ansatte eller underleverandøren.
Men det ændrer ingenting. For mig som bruger er det ligegyldigt om det er direktøren, udvikleren, rengøringsdamen, underleverandøren, under-underleverandøren der har fejlet. Når det rapporteres som det sker her så lyder det som ansvarsforflygtigelse.
Hvis noget er vigtigt så skal man. Jeg husker en situation hvor vi tjekkede hvordan kabler mellem 2 datacentre forløb sådan at vi var sikre på at de ikke krydsede hinanden nogen steder. Det var ikke vores kabler men en service fra en underleverandør. Men det var vigtigt for os at der var 100% redundans.
Under alle omstændigheder er man nødt til at analysere alle overordnede fejlscenarier. At nogen ikke tænder for serveren kan sandsynligvis håndteres på samme måde som når serveren er død. Løsningen er at have automatisk failover til et andet datacenter.
Hvor mange andre steder i vores vitale infrastruktur ser det ligesådan ud - hvis nedbruddets varighed skyldtes, at supporten holdt weekend?
Jeg har da også privat bemærket, at alle net-nedbrud, strømnedbrud, varmeforsyning og vand, der forsvinder fra hanerne, meget ofte sker fredag eftermiddag... eller i weekenden..
Minder mig om Glistrups gamle forslag om, at forsvaret skulle udskiftes med en tlefonsvarer, der sagde, "Vi overgiver os, vi overgiver os, vi overgiver os..."
Konstant at have en person siddende ville kræve midst 4 personer i rotation.
Det er sparet væk af CEO'en for længst
Boden er mindre end deres løn.
Lyder som om supporteren havde “trukket stikket” et par timer. Ha ha, den var næsten for oplagt… Men lyder jo næsten som samme problem som Facebook nedbruddet for nogle måneder siden; der er stort set ikke folk fysisk til stede på driftscentrene. Og de skal så først rykke ud fysisk for den slags. Måske man skulle overveje om det er besparelsen værd, ikke at have et par folk siddende i “on location”
Har jeg forstået det rigtigt, at denne begivenhed varede nogle timer? I I givet fald undrer jeg mig over dette:"Og nu viser det sig, at forrige weekends nedbrud skyldtes, at en underleverandør simpelthen havde glemt at tilslutte et strømkabel."
Som absolut ikke-fagmand undrer jeg mig over, at det ikke kan fejlfindes og overstås på ganske kort tid.
Er det ligesom med større strømnedbrud, at systemet skal genstartes ganske langsomt i etaper?
Eller var der ingen "support-backup" på arbejde i weekenden til denne kritiske indfrastruktur?
Hvis flere deler ansvar, er der ikke nogen som tager ansvar.
For os borgere er det helt ligegyldigt, om det var en stikkontakt, et overgrebet fiberkabel, en mår i rack'et eller en ondsindet hacker som lagde systemet ned, helt enig - systemet var nede uanset.
Men hvis vi begynder at sige, at myndighederne ikke på noget tidspunkt kan begrunde en fejl med en leverandørs forkerte handlinger, så underbygger vi nulfejlskulturen, og underbygger ekstremt omfattende kontrakter som udelukker de små spillere fra at kunne deltage i offentlig it.
Det er ikke sundt hvis en myndighed skal finde og definere samtlige fejlsituationer, opstille krav omkring dem, og gennemgå afrapporteringer fra leverandøren på månedlig basis. Myndigheden kan selvfølgelig kun tage ansvar for alle situationer hvis de i kontrakten har taget stilling til de situationer.
Selvfølgelig skal der det, men som Michael skriver, så er det en sag mellem sundhed.dk og deres leverandører. For os borgere er det kun sundhed.dk der skal stå til ansvar. Og sundhed.dk skal blot kunne betragte DXC som leverandør og behøver ikke vide at de har en underleverandør der står for stikkontakter.
Så hvor store kontrakter med hvor mange krav skal man til at udfærdige? Og skal der slet ikke være noget som hedder "leverandøransvar"?
... nåh ok, så er alting jo fint. Nej, selvfølgeligt er det ikke fint. For mig som borger er det flintrende ligegyldigt om det er direktøren for sundhed.dk der har glemt at tænde eller om det er en leverandør. Det er sundhed.dk (eller en eller anden indkøbsfunktion hos staten) der har valgt leverandøren. Så må de også stå på mål for leverandørens fejl. Det er ikke acceptabelt at de blot får fripas.
Det er da virkelig en dårlig service.