Sådan fik Region Hovedstaden styr på de kritiske nedbrud

En helt ny måde at tænke incident response på har givet Region Hovedstadens Koncern IT tilfredse kunder ude på hospitalerne.

Der findes masser af it-systemer med betegnelsen "kritisk". Men i Region Hovedstaden kan nedbrud i it-systemerne på hospitalerne i yderste konsekvens koste menneskeliv.

Og derfor var det også utilfredsstillende, at Koncern It konsekvent lå under det stillede krav om, at 95 procent af alle kritiske nedbrud skal være løst inden fire timer.

»Vi svingede lige under 95 procent. Nogen gange lige under, andre gange en del under. Men aldrig over, og det var utilfredsstillende, for det gav forstyrrelser i hospitalsdriften,« forklarer team koordinator og incident manager Jan Kjærby Vinding fra Region Hovedstadens Koncern IT.

Der måtte gøres noget. En problemknusergruppe blev nedsat, og som noget af det første kiggede de på nogle af de sager, der havde taget allerlængst tid at få løst.

»Vi analyserede blandt andet en sag, der var gået helt galt. Vi er internt organiseret i ti teams, og inden sagen var slut, nåede vi at tælle 49 steder, den havde været. Og ingen følte, at det var deres skyld, den ikke var blevet løst hurtigere,« siger Jan Kjærby Vinding.

Med til at forplumre sagsgangene var også, at it-specialisterne i løbet af en almindelig arbejdsdag både skulle deltage i udviklingsprojekter og sørge for change requests, samtidig med, at de skulle stå til rådighed i tilfælde af nedbrud.

Vagtordning: Én uge ad gangen med incident response

Første del af kuren blev derfor, at man oprettede et dedikeret Incident Response Team. En slags vagtordning, hvor ti medarbejdere med hver deres specialkompetence inden for Unix, Windows, netværk, databaser m.m. ikke har andre opgaver end at løse, hvad der måtte opstå af problemer.

»De reagerer på sager ud fra hospitalerne, der kommer ind via service desk og via vores overvågning. Men vi reagerer ud fra en prioritering i forhold til vores SLA - undtagen når vi går i krisemode,« siger Jan Kjærby Vinding.

Region Hovedstaden har rundt regnet én større hændelse om måneden, der kræver kriseledelse.

»Det betyder, at vi samler et continuity management team med relevante kompetencer og konfiskerer et mødelokale. Så sætter vi typisk mindst tre spor i gang samtidig: To, der forsøger at redde systemet og reparere fejlen og et, der parallelt arbejder på en alternativ løsning,« forklarer Jan Kjærby Vinding. Kriseledelse igangsættes også ved mistanke om større driftsforstyrrelser, for at forhindre en potentiel forstyrrelse i at eskalere.

Specialisterne har vagt en uge ad gangen, hvor de flytter væk fra deres normale plads og ind i midtercirklen i nyindrettede lokaler, der har hentet inspiration fra vagtcentralen på en brandstation i Seattle og som leder tankerne hen på Nasas kontrolcenter i Houston. Hovedprincippet i indretningen er nærhed til service desk, der typisk er de første til at høre om større fejl i systemerne.

Næste skridt var en mindre organisationsændring, der adskilte teams, som ikke naturligt hørte sammen.

»Vi delte organisationen mere logisk op, samtidig med, at vi gav det et twist af matrix. Og så fik vi en incident manager, nemlig mig,« siger Jan Kjærby Vinding.

På den måde er der kommet langt mere styr på håndteringen af sager, der uventet dukker op. Og tiltagene har hjulpet. Kravet om, at 95 procent af alle kritiske nedbrud skal være løst inden fire timer, er i fem af de seks måneder, setup'et har været i drift, blevet indfriet. Og den sidste måned ramte kun udenfor på grund af afrunding.

»Konsekvensen har været, at folk bliver meget bedre til løse opgaver i forhold til aftalte mål. Vi har flyttet folk væk fra at lave changes rent fysisk - og pudsigt nok er performance på changes også blevet bedre. Og så skal man også huske, at det er langt sværere at gå fra 94 til 95 procent end fra 80 til 90,« siger Jan Kjærby Vinding.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (2)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Martin Wood

Ja det kunne de. IRT er i et initiativ til at overholde alle SLA'er med kunderne (primært hospitalerne) - både de lave - men især de kritiske. Så hvis sager med lav prioritet er ved at overskride grænsen for vores aftaler, så bliver de håndteret af incident manageren i IRT. Det gode ved IRT er derfor at den daglige sagsløsning bliver bedre og mere smidig - samtidig med at man allerede har samlet et hold hvis der skulle opstå kritiske hændelser. Blot ved at sætte folk sammen fysisk og give dem de rette værktøjer og overvågning.

  • 3
  • 0
Log ind eller Opret konto for at kommentere