Dette indlæg er alene udtryk for skribentens egen holdning.

NemID Nedbrud -1/2

22. november kl. 21:5232

Som den opmærksomme læser muligvis har bemærket, har jeg leveret en sound-bite om NemID Nedbrudet til Henrik Molkte på DR-TV.

Henrik brugte fem måneder på at vriste nogle dokumenter ud af DigSt og Nets og han gav mig et par dage til at kigge på dem, så der ikke gik totalt Kaptajn Haddock i mig for åben skærm.

Det tilkommer ikke mig at offentliggøre dokumenterne, men jeg er ret sikker på at den danske IT-branche gerne vil have sænket ploven meget længere ned end det niveau den brede offentlighed kan kapere i en en TV-Avis, så her kommer to blogindlæg.

Dette første blogindlæg handler om selve nedbrudet, det andet kommer til at handle om udredningen, afrapporteringen og dens talrige mangler.

Artiklen fortsætter efter annoncen

(Andet blogindlæg er her)

Der er tale om ialt seks dokumenter, to fra DigSt, to fra Nets og to fra et externt revisionsfirma, som Nets har købt og betalt til at udrede sagen.

De to fra DigSt handler udelukkende om hvilke anstrengelser de har gjort sig for at undgå at udlevere de andre fire dokumenter til Henrik og DR, dem ser vi bort fra i første runde.

Det første dokument (#1, 4 sider) er dateret 23 august 2022, og har titlen "Root Cause Analysis by Problem Management" med Nets logo.  Dokumentets form er en udfyldt formular.

Det andet dokument (#2, 4 sider) er ligeledes dateret 23 august 2022, har titlen "Incident Description" og har form af et memo på officielt Nets brevpapir.

Det tredje dokument (#3, 6 slides) er dateret 18 august 2022 og har form af en "Tak fordi I hyrede os" PowerPoint fra revisionsfirmaet som indeholder en grafisk fremstilling hvor hændelsesforløbet er opdelt i fem spor.

Det fjerde dokument (#4, 37 slides), er dateret 16 september 2022 og har form af en PowerPoint hvor revisionsfirmaet afleverer resultatet.

Jeg vil i teksten henvise til disse fire dokumenter på formen (#x/y[/r]) dvs, dokument, side og evt. keyword, i håbet om at dokumenterne en dag får et bredere publikum, men indtil da må I tage mit ord for det.

Det relevante hændelsesforløb
 

2020-05-28 Nets tester deres Disaster recovery.

Det fremgår ikke om testen gik godt.

2020-11-28 Nets tester ikke deres Disaster recovery.

2021-05-28 Nets tester ikke deres Disaster recovery.

2021-Q3 Nets ledelse er via officiel "Risk Report" er klar over at DR ikke bliver testet. (#4/8)

2021-11-28 Nets tester ikke deres Disaster recovery

2022-05-28 Nets tester ikke deres Disaster recovery

2021-12-03 VM-migrering uden papirarbejde og uden test

På grund af kapacitetshensyn migreres en eller flere VM'er til en anden host.

Blandt andet flyttes en CRL server (Slå det selv op.) til NemID.

Boot-partitionen flyttes ikke med (eller havner på ramdisk?)

Systemet advarer om problemet, men det ignoreres. (#4/23/IAM11)

Der er ingen "change ticket" for denne ændring. (#4/12/DR1)

Der foretages ingen test efter denne ændring.

2022-06-21 11:58 Storage opgradering afsluttes med reboot

(#2/4) angiver 11:58, det er konsistent med andre informationer.

(#4/6) angiver 18:35, det giver ingen mening.

Opgradering af storage på VM-hosten afsluttes med reboot.

VM-hosten med CRL serveren kommer ikke op.

2022-06-21 17:23 Alarm om manglende adgang til CRL

Vurderes til at være en falsk alarm (#4/16/DR16)

2022-06-21 23:58 CRL expiry

Seneste CRL liste udløber og mindst ⅓ af brugerne kan ikke komme igennem. 

2022-06-22 08:16 Akamai DoS blokerer trafik til MitID.

På grund af de mange brugere der henvises til at bruge MitID stiger trafikken nok til at Akamai's automatiske systemer tror det er et DoS angreb og de lukker for trafik til MitID fra (???)

Akamai sender email til "IBSS NETS NETWORK INTERNAL", de modtager den kl. 08:22 og ignorerer den. (#4/26/MA2)

2022-06-22 10:05 - 11:00 Hotpatching tager NemID 100% ned.

(#2/4)

2022-06-22 11:16 Backup forsøges indlæst

(#2/4)

2022-06-22 15:49 Nets bliver opmærksom på Akamais email

Nets kontakter Akamai og får fjernet IP-blokeringen.

2022-06-23 01:07 Disaster Recovery initieres

(#2/4)

2022-06-23 16:25 Disaster Recovery fejler

(#2/4)

2022-06-23 20:27 Restore fra Backup opgives

Alle backups opgives, da de mangler en bestemt fil.

(#4/6)

2022-06-24 Nets begynder at bygger en ny CRL server fra grunden

2022-06-25 17:52 NemID stort set oppe

(#2/4)

2022-07-01 01:07 NemID helt oppe

(#2/4)

Useriøs Disaster Recovery
 

Skidt sker.  Både indenfor IT og andre steder og derfor er DR den absolut vigtigste ting hvis noget skal virke.

Vi lukker f.eks Storebæltsforbindelse én gang hvert år, for at checke og træne hvordan man hiver et brændende tog op af røret.

Nets har derimod "en ambition om at teste DR to gange om året" (#4/6)

…og det får de så ikke lige gjort i et par år - fire gange i træk.

Der omtales faktisk en DR-test den 2022-06-21 i "pre-prod" miljøet, og at den fejler klokken 17:15. (#4/8)

Det er ikke klart hvorfor den omtales om en "test":

Havde de bare helt tilfældigvis endelig taget sig sammen til at teste DR ?

Begyndte de at "teste" fordi NemID var på spanden ?

Bliver det udelukkende kaldt "test" fordi det ikke foregår i produktionsmiljøet ?

Useriøs Sikkerhedskopiering
 

Da revisionsfirmaet giver sig til at grave i det, afsløres en dybt useriøs sikkerhedskopiering.

Ud over at man aldrig testindlæser sikkerhedskopierne, reagerer Nets ikke på fejl og alamer fra fra backup-kørslerne.

Ydermere, og her er dokumentet ret kraftigt udstreget, er der stor tvivl om Nets selv evner at indlæse sikkerhedskopierne og hvor mange andre systemer det ville påvirke.

Den tvivl ville ikke existere hvis man regelmæssigt afprøvede sine sikkerhedskopier.

God, Root, What Difference?
 

Over fire hele sider (#4/20-23), med hyppige udstregninger, gør revisionsfirmaet rede for at NemIDs operative personales arbejde har meget lidt at gøre med hvad ledelsen måtte tro der foregår.

Præcis hvilken vej denne afkobling vender er ikke indlysende, men det lyder som om det operative personale kører deres eget løb med en højere standard end Nets ledelse lægger op til.

Bla. afviser de at bruge forskellige officielle Nets tiltag (#4/21/IAM4) fordi de ikke er gode nok.

De afviser (DuH!) også et krav i Nets' officielle dokumenter om at bruger NemID som adgangskontrol (#4/22/IAM9)

Det fremgår også at der ikke er omhyggelig kontrol med brugen af Administrator Privileges i Nets, f.eks foretages storage opgraderingen af en extern person og den omtalte VM migrering var både uden risikoanalyse og udokumenteret.

Revisionsfirmaet konkluderer at der dog, trods alt, ikke er nogen indlysende åbninger for udefrakommende fjendtlig aktivitet.

Men hvordan var det nu med Se&Hør's "Tys-Tys Kilde"... ?

For systemer så kritiske som NemID, bør der være en 100% konsekvent "To-mands-regel" på enhver anvendelse af Administrator Privilegier og fysisk adgang og der skal føres logbog over alle aktiviteter.

Har branchen virkelig intet lært af, at Edward Snowden kunne rende med NSA's kronjuveler, uden de kunne finde ud af hvad han faktisk tog?!

Useriøs drift og overvågning
 

Alarmer om alt muligt, fra backup fejl over manglende CRL'er og til DoS-blokeringer, bliver bare ignoreret eller kigget på senere.

Uanset hvilke forklaring Nets måtte have, er den ikke god nok.

Ingen brugbar genopbygningsprocess
 

Da Nets skal til at konstruere CRL serveren fra bunden, må de nærmest prøve sig frem og det tager dem en hel uge.

Denne del graver Revisionfirmaet overhovedet ikke i.

Uintegrerede Externe Services

Revisionsfirmaet noterer sig, ret spydigt, at selv 3 måneder senere har de stadig ikke set skyggen af dokumentation for hvorledes Akamai og deres anti-DoS services passer ind i arkitekturen.

Der er tilsyneladende heller ingen overvågning der spotter IP-Blokeringen.

Advarsels-emailen om blokeringen sidder ignoreret i en mailbox hele dagen.

Abekast
 

I TV-Avisen stod Nets' talsmand og kaldte det "En menneskelig fejl"

Revisionrapportens tilgang til forløbet er tydeligvis også at alle de involverede medarbejdere har svigtet den heroiske og ambitiøse ledelse i Nets.

Not!

En så tilbundsgående og omfattende slendrian og useriøsitet som dokumenterne afslører, kan ikke implementeres af medarbejder uden ledelsens medvirken og som sagt dokumenteres det at ledelsen var informeret om de manglende DR-tests.

Hvad er DigSt's rolle ?
 

Når alt dette er sagt, skal det retfærdigvis siges, at bortset hvorledes deres ihærdige forsøg på at hemmeligholde disse dokumenter skriger til himlen, ved vi intet om DigSt's rolle.

NemID drives på forlænget overtid fordi MitID blev forsinket og vi kender ikke indholdet af den kontrakt.

DigSt har næsten med sikkerhed været meget omkostningsbevidste.

Når den himmelråbende slendrian der her er dokumenteret ingen virkelige konsekvenser har fået for Nets, kan det skyldes det at de oprigtig kunne svare DigSt med: I får præcis hvad i betaler for.

Det heller ikke utænkeligt at vi er ude i IC4-land, hvor DigSt har koncenteret sig om pantone-farver, fontstørrelser og logo-design, mens "alt det der tekniske" blev overladt 100% til leverandøren.

Det kunne f.eks forklare hvorledes DigSt ikke har sørget for at test af DR-planen var mere end  "en ambition".

Det er også her vi bliver nødt til at parkere spørgsmålet om hvorfor og hvordan, en så central enhed som en CRL server for ⅓ af NemID certifikaterne, ikke havde to redundante implementeringer til at begynde med?

Der sker ingen fejl på en IBM Mainframe
 

Jeg har tidligere kommenteret hvorledes IBM Mainframe-folket lider af en objektivt ubegrundet tillid til at der ikke sker fejl på IBM Mainframes og det er også en mulig indgangsvinkel til at forstå hændelsesforløbet og tilgangen til fejl og advarsler.

Mønsteret med at DR planen er en ren skrivebordsøvelse der kun testes, ofte endda kun delvist, én enkelt gang, er meget symptomatisk for IBM mainframe installationer.

En del af årsagen er at man traditionelt har foretaget testen på en til formålet af IBM lejet mainframe, noget IBM tager sig godt og vel betalt for (og hertil rejseudgifter.)

Nogle steder består ikke alene testen af, men selve DR planen simpelthen af: "Vi giver IBM backup-båndene og en stak penge."

Der er også mange detaljer i Revisionsfirmaets afrapportering der lugter af impedansforskellen mellem NemID driftspersonalet og Nets' ledelse, simpelthen er mainframe vs. PC-server.

/phk

32 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
31
25. november kl. 09:52

men det lyder som om det operative personale kører deres eget løb med en højere standard end Nets ledelse lægger op til.

Bla. afviser de at bruge forskellige officielle Nets tiltag (#4/21/IAM4) fordi de ikke er gode nok.

De afviser (DuH!) også et krav i Nets' officielle dokumenter om at bruger NemID som adgangskontrol (#4/22/IAM9)

og

I TV-Avisen stod Nets' talsmand og kaldte det "En menneskelig fejl"

Jeg udleder lidt at det så er ledelsen som har fejlet.

25
23. november kl. 19:12

Både indenfor IT og andre steder og derfor er DR den absolut vigtigste ting hvis noget skal virke.

Primært må da være, at virksomheden har barrierer mod hændelsen. DR må være et afhjælpende tiltag og sekundært. Det virker dog som om, nets ikke har nogen dele overhovedet, så måske ikke den store forskel. Kunne være spændende hvis du har ikke fået udleveret det der populært kaldes "Ledelsens Evaluering". Det er et koncept der typisk bruges i (EU)-lovgivninger der kræver kvalitets- eller sikkerhedsledelsessystemer i andre type brancher med uheld der giver alvorlige konsekvenser (lægemiddelproduktion, kemikalievirksomhed mv.). I de brancher er der også tilsyn med en max frekvens på 3 år, hvor ovenstående efterspørges. Der vil man også kunne se om Digitaliseringsstyrelsen er dumpet.

26
23. november kl. 22:33

Primært må da være, at virksomheden har barrierer mod hændelsen. DR må være et afhjælpende tiltag og sekundært.

Jeg er ikke enig.

Skidt Sker og derfor er DR primær sikkerhed for oppetid.

Jeg har skrevet om netop dette aspekt i blogindlæg #2 (https://www.version2.dk/holdning/nemid-nedbrud-22)

27
24. november kl. 10:02

Ahh, DR må være primær sikkerhed for at kunne reetablere inden for tidsfrist, en tidsfrist som skal være fastsat af kunden.

Redundans må være primære sikkerhed for at være systemet er oppe.

28
24. november kl. 10:35

For at bruge ITIL termer, så er grænsen mellem IT Service Continuity Management (som DR kaldes) og Availability Manangement ofte lidt glidende.

Rent kontraktuelt kan man sige at AM sikrer at man kan overholde sine SLA for oppetid, mens ITSCM handler om at leverandøren IKKE kan påberåbe sig Force Majeur i forbindelse med systemnedbrud (og derfor potentielt kan blive erstatningspligtig ud over de normale bodsaftaler)

En anden interessant ting ved ITSCM er at da katastrofer ikke forekommer i dagligdagen er man nødt til at have et afprøvningsregime, der viser at forberedelser og planlægning er tilstrækkelig til at leve op til de servicemål der er sat.

24
23. november kl. 18:59

Dette er et teknisk forum, og det dækkes af PHK og suppleres af debat-indlæg.

Der er imidlertid et parallelt spor, som f.eks. version2's journalister passende kan forfølge.

HVORDAN kan det være, at det øjensynlig er fuldstændig frit for virksomheder, samt ansatte i virksomheder, at optræde så ansvarsøst som PHK's blok afslører ?

Ganske vist er vi hverken i Rusland, Kina, Syrien, Iran eller lignende diktaturer, hvor de har grusomme straffe for dem som fejler.

Men kan det virkelig fortsat være sådan, at ansvarsløshed ikke har konsekvenser ?

Hvad er det egentlig som får os til at gøre os umage, og undgå egentlig slendrian og uagtsomhed ?

Er det først advarsler, derefter demotion (det modsatte af forfremmelse), er det nedslag i løn og bortfald af bonus, er det opsigelse ?

Det kan vel ikke blive ved ?

23
23. november kl. 14:29

Hvor er Finanstilsynet! DR er en kerneopgave for finansielle virksomheder! Tilsynet har ikke været godt nok!

29
24. november kl. 13:09

NemID er ikke en finansiel virksomhed, derfor er NemID ikke underlagt FinansTilsynet.

NemID drives af en leverandør som også levere finansielle infrastruktur, men det er et helt andet forhold.

15
23. november kl. 09:33

Du lød nu meget kompetent i P1 i morges. Ikke at Haddock ikke er kompetent, men attituden kan somme tider komme i vejen for de gode (dårlige) budskaber

17
23. november kl. 10:17

men attituden kan somme tider komme i vejen for de gode (dårlige) budskaber

Spørger du mig, vil jeg sige kun hvis modtageren mener at vedkommende er bedre end den som afsender budskabet og i det tilfælde er det lige meget hvor pænt budskabet er pakket ind, modtageren vil stadig mene at være bedre end afsenderen.

Bedre kan omskrives til magtfuldkommen, højere i (samfunds)rang, vigtigere, bedre lønnet osv.

En fornuftig modtager tager budskabet lige meget hvor dårligt det er pakket ind og forarbejder det og uddrager læring.

13
23. november kl. 09:21

Når nu du omtaler rejseomkostninger så skal driften jo helst ikke æde af ledelsens bonuskonto, der skal helst være nogle friske mia. til deling.

12
23. november kl. 09:18

Jeg kom i tanke om at jeg læste denne 2016/2017:

Fra https://rigsrevisionen.dk/Media/A/A/sr0516.pdf

Det er Rigsrevisionens opfattelse, at revisorerklæringen er formuleret meget overordnet og ikke indeholder informationer om, hvilke kontroller og tests revisorerklæringen er baseret på, og hvilke lag i it-infrastrukturen revisionen har dækket. Ved at modtage informationer herom kan tilsyn og opfølgning styrkes yderligere.

Har digst ikke ændret på sin kontrol med leveradøren?

Gad vide om revisionserklæringen/revisionsprotokollat har fremhævet en bekymring om evnen til at reetablere/manglende DR?

Hvis ingen anmærkning, mon revisoren der har gennemført revisionen kan gøres ansvarlig?? Han/hun burde gøres ansvarlig. Det vil være godt for Danmark hvis vi får en retssag der viser at revisor kan gøres ansvarlig for mangelfulde it-revisioner.

16
23. november kl. 09:38

Har digst ikke ændret på sin kontrol med leveradøren?

Det står der intet om i dokumenterne.

Men det faktum at Nets med oprejst pande tør sige at de kun har "en ambition" om at test DR planen får mig til at g

20
23. november kl. 12:40

Men det faktum at Nets med oprejst pande tør sige at de kun har "en ambition" om at test DR planen får mig til at g

gyse, græde, græmmes, ...?

Slightly off topic: Men der er noget der klipper dine indlæg af næsten hver gang. Kan du ikke checke preview før du poster.

30
25. november kl. 09:44

Slightly off topic: Men der er noget der klipper dine indlæg af næsten hver gang. Kan du ikke checke preview før du poster.

Det er også sket for mig. Preview ser fint ud, man trykker Udgiv. Jeg bruger Firefox, min formodning er, at phk også bruger Firefox. Efterhånden er Chrome lige så udbredt som IE engang var, så Firefox igen er underlagt "gider vi ikke understøtte"-syndrom.

32
26. november kl. 09:55

Tilføjelse: det sker især i Firefox på telefonen.

Det skete bl.a. da jeg skrev dette indlæg, og "telefon" forsvandt

22
23. november kl. 13:40

gyse, græde, græmmes, ...?

Slightly off topic: Men der er noget der klipper dine indlæg af næsten hver gang. Kan du ikke checke preview før du poster.

Den mulighed findes vist ikke i nærværende forum?

21
23. november kl. 13:26

Det ser fint ud i preview :-(

19
23. november kl. 11:05

Men det faktum at Nets med oprejst pande tør sige at de kun har "en ambition" om at test DR planen får mig til at g

Det er sædvane at konkludere at en procedure ikke findes med mindre den bevisligt er testet, eventuelle fejl og mangler er genoprettet, en gentest har vist at proceduren nu fungere hensigtsmæssigt samt at man kan bevise, at proceduren følges og vedligeholdes med de erfaringer man måtte opsamle.

Procedurer kan som programmel være fejlbehæftet, og/eller virkeligheden ændrer sig og de skal derfor testes og vedligeholdes - ligesom programmel.

Mht. DR kan der være økonomiske eller praktiske barrierer for en test ud i alle ekstremer og man kan så lave en risikovurdering for hvilke eventualiteter man ikke vil teste.

18
23. november kl. 10:35

(Apropos kvalitet i It systemer...)

[...] får mig til at gætte på "Ikke nok".

11
23. november kl. 08:58

<haddock>Skægaber! Landsforrædere! Burgøjsere! Forlorne tæppehandlere! Kannibaler!</haddock>

9
23. november kl. 08:42

Hvornår vi programmet på DR?

8
23. november kl. 08:28

Spændende og lærerigt. Hvornår var det i DR-TV?

10
23. november kl. 08:51

21 tv-avisen igår.

Og i morgenradio på P1 lidt over halv otte idag.

3
23. november kl. 07:41

Tak for en lærerig og underholdende gennemgang. Man gyser jo.

Forløbet er jo værre, end nogen Version2-kommentator i sit mest onde lune kunne have fundet på for at håne NETS. Fiktionen får fremover svært ved at overgå virkeligheden her.

"... f.eks foretages storage opgraderingen af en extern person .."

og

"Revisionsfirmaet konkluderer at der dog, trods alt, ikke er nogen indlysende åbninger for udefrakommende fjendtlig aktivitet."

Er det bare mig, der synes, at de to sætninger ligesom er lidt på kollisionskurs? Hvad er "extern person" for en, og er en sådan sikkerhedsgodkendt osv?

Det hele er jo så hårrejsende, at man har svært ved at forestille sig, at det er til at rette op på. Hvordan skulle det pludseligt gå til, at man blev sin opgave voksen? Er der røget hoveder? (Mange!)

Og hvad handler den sidste sætning egentlig om: Er man faktisk ikke sikker på, om der kan være tale om et angreb?

Jeg så interviewet med PHK (super!), og talsmanden fra Nets. Sidstnævnte stod - i mine øjne - med et fjoget smil, og så ikke rigtigt ud til for alvor at have fattet alvoren. Det er selvfølgelig bare min oplevelse - men jeg blev i hvert fald absolut ikke betrygget i, at der nu er styr på noget som helst.

Kan det gå endnu værre næste gang? Hvad er worst case scenariet? Altså virkelig worst case?

"De to fra DigSt handler udelukkende om hvilke anstrengelser de har gjort sig for at undgå at udlevere de andre fire dokumenter til Henrik og DR, dem ser vi bort fra i første runde."

Det er rimeligt - det er jo trods alt ikke en del af selve problemet. Men det kunne alligevel være interessant at se krumspringene - og hvad Henrik Molkte har gjort for at lirke skattekisten op. Godt arbejde!

4
23. november kl. 07:55

Den externe person der foretog storage opgraderingen var næsten helt sikkert fra IBMs fast tilknyttede support-team og der er intet der tyder på at vedkommende gjorde noget forkert.

5
23. november kl. 07:58

Nej, det tænker jeg heller ikke - det er selve konstruktionen, jeg undrede mig over. Men det er måske set med fagfolks øjne helt ok.

6
23. november kl. 08:05

Det er en af de detaljer der får mig til at konkludere at det handler om en IBM mainframe.

I mainframeinstallationer er det meget normalt at der er en fast IBM mand tilknyttet ("fyrpasseren") som har eget kontor og adgangskort hos kunden og at kundens eget personale ikke må røre hardwaren overhovedet.

1
23. november kl. 02:13

Hold venligst vores debatregler i tankerne, når du deltager i debatten.

Og det er så mit figenblad for at undgå en regulær Kaptajn Haddock her.

Det er nok den rigtige dag at slippe det løs; Danmark har spillet 0-0 i første VM-kamp.

Imponerende opremsning og nu venter vi så, så roligt, som det nu er muligt på "2/2".

Der er kun én "indvending", du bruger DR i toforskellige betydninger; først DR som "Danmarks Radio" og senere DR som "Disaster Recovery".

Tak for beskrivelsen af forløbet, som er utrolig frit for "Tonnerre de Brest"-udbrud. Den anden gode grund til, at dagen er velvalgt er, at DK pt er uden (valgt) regering.

2
23. november kl. 05:25

DK pt er uden (valgt) regering.

Det er vi altid: I Danmark udpeges regeringen, den vælges ikke :-)