Rigsarkivets hjemmebyggede system er under pres: »Vi risikerer, at data går tabt«

Illustration: Rigsarkivet
Rigsarkivet modtager enorme datamængder fra myndighederne, og den gamle, selvudviklede infrastruktur kan snart ikke følge med mere. Det kan blive dyrt for det offentlige.

»Vi kan godt følge med lige nu. Men samtidig kan vi se, at det inden for omkring fem år bliver meget svært.«

Chefkonsulent og områdeleder hos Rigsarkivet Jan Dalsten Sørensen. Illustration: Tom Jersø

Jan Dalsten Sørensen er chefkonsulent og områdeleder hos Rigsarkivet, og han har problemer med sin infrastruktur.

Arkivet modtager enorme mængder af bevaringsværdige data fra offentlige myndigheder. Det kan for eksempel være dokumenter fra ESDH- eller fagsystemer, og der kan være tale om det totale indhold af et system.

Men infrastrukturen hos Rigsarkivet er en broget portefølje af egenudviklet it, der har udvidet sig gennem mange år.

»Vi har arbejdet med at modtage digitale arkivalier rigtig længe her i Rigsarkivet. Faktisk siden 1973. Så det system, vi bruger til at modtage, kvalitetssikre og bevare de data, vi skal have fra den offentlige forvaltning, det er noget, som gradvist er opbygget hen over årene, og som indeholder en ret høj grad af komponenter, vi har lavet selv,« siger Jan Dalsten Sørensen til Version2.

Derfor har Statens Arkiver indledt et stort it-projekt, der om en årrække skal munde ud i en fremtidssikret it-understøttelse af Rigsarkivets arbejde.

Svært at finde hyldevarer

Så arkivet skal have ny infrastruktur, men det er ikke sådan lige at hive et nyt system ned fra hylden. De data og dokumenter, der skal bevares for eftertiden, skal nemlig igennem en helt særlig proces.

Når Rigsarkivet får data fra en offentlig myndighed, er der langtfra tale om et råt udtræk. Arkivet stiller meget specifikke krav til format, kvalitet og dokumentation, som myndighederne skal konvertere deres data til.

Herefter tjekker Rigsarkivets ansatte, om data lever op til kravene, og først herefter bliver de godkendt.

Så bliver der produceret et eksemplar på LTO-bånd, et eksemplar på Blu-ray-disk, og der bliver sendt et eksemplar til Det Kongelige Bibliotek. Herefter må afsender-myndigheden slette sit eksemplar.

Jan Dalsten Sørensen giver et eksempel på, hvorfor det er svært at lægge Rigsarkivets arbejde ind i et standardsystem.

Rigsarkivet bruger denne robot til at trykke sine egne eksemplarer af bevaringsværdige data på Blu-ray. Illustration: Adam Fribo

»Et godt eksempel er produktionen af Blu-ray-diske med data på. Vi producerer selv vores eksemplarer til bevaring, og det kræver en ret specialiseret viden om, hvordan de her særlige robotter, vi har købt i Tyskland, spiller sammen med datastrømme, og hvordan man sikrer kvaliteten af brændingen,« siger han til Version2.

»Det kan man ikke bare lægge ud til en ekstern leverandør, for man skal både vide noget om medier og om denne her robot, der brænder Blu-ray-diske, og om Rigsarkivets regelsæt for data.«

Han erklærer sig dog helt åben overfor standardsystemer, hvis man kan finde noget, der giver mening.

Projektet med anskaffelse af Rigsarkivets nye it-infrastruktur er stadigvæk i de meget tidlige faser, og man er stadigvæk i gang med at ansætte en projektleder, der får til opgave at scope opgaven. Version2 har fået aktindsigt i business case og projektbeskrivelse, og selvom alle tal er streget over med henvisning til arkivets interne beslutningsprocesser, giver det en fornemmelse af projektets omfang.

Tidsplanen viser, at det indtil videre står til at løbe frem til 2022.

»Projektet har potentialet til at blive meget stort og komplekst,« står der beskrivelsen, der også lægger op til, at Rigsarkivets egen udviklingsafdeling kommer på arbejde.

»Det er antageligt kun muligt at komme et stykke ad vejen med standardsystemer, og opgaven kan derfor rumme et stort udviklingsarbejde.«

Udgifter og tabte data

Men hvad er konsekvensen egentlig, hvis Rigsarkivet ikke kan følge med mængden af data, der skal bevares? Ifølge Jan Dalsten Sørensen kan det blive en dyr omgang for det offentlige, fordi de ikke må slette data, før Rigsarkivet har givet grønt lys.

»Hvis myndighederne ikke kan komme af med det materiale, der skal slettes ifølge lovgivningen, men som de samtidig ikke må slette, før vi har kvalitetssikret et eksemplar, så kan myndighederne komme i klemme. Både i forhold til databeskyttelsesloven og i forhold til deres omkostninger til at holde liv i gamle, udfasede systemer og den slags ting,« siger han til Version2.

»Og derudover kan vi risikere, at materiale går tabt.«

Version2 har klaget over, at Rigsarkivet har undtaget økonomien fra aktindsigt.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (24)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Christian Jørgensen

"LTO-bånd (magnetbånd fra 1990erne)" kan lyde lidt nedladende og de fleste rynker på næsen, når de hører om IT fra 90'erne...

Men LTO lever i bedste velgående. Den første generation LTO1 kom rigtig nok frem sidst i 90'erne med en kapacitet på 100 GB, men seneste generation LTO8 kom i december 2017 med en kapacitet på 12 TB - stadig indenfor samme fysiske størrelse. Og konsortiet af større IT selskaber bag LTO har en plan for de næste 4 generationer.

Læs selv mere her: https://en.wikipedia.org/wiki/Linear_Tape-Open

Så man skal ikke rynke på næsen af LTO - det er gennemprøvet og stabil teknologi, hvilket især er vigtigt i en arkiv funktion, hvor man ikke kan vælge teknologi uden at sikre, at det vil leve i en længere periode fremover. Desuden er bånd stadig forholdsvis billigere end harddisk, så der er også en økonomisk motivation for / grund til at vælge LTO.

  • 17
  • 0
#2 Claus Bobjerg Juul

I forhold til om data må/skal slettes af en myndighed også selv om data ikke er blevet godkendt til sletning af rigsarkivet må en dommer tage stilling til. Hvad mon vægter højst borgerens rettigheder eller behovet for at rigsarkivet ikke har alt data, fordi de ikke havde et system der kunne tage imod data?

  • 5
  • 0
#3 Hans Nielsen

"Jan Dalsten Sørensen giver et eksempel på, hvorfor det er svært at lægge Rigsarkivets arbejde ind i et standardsystem."

Hvis det blev lovgivet om at et overordnet veldokumenteret åben, og patent frit standard for alt data i det offentlige.

Måske baseret på de bedste dito i andre EU lande.

Så ville meget været sparet både her og mange andre steder. Tænk bare på udbud af nyt software og kravspecifikation.

  • Data skal hentes, lagres og bruges i offentlig.danskstandart.database

Forstår ikke brug af bånd og optisk medie, men der er måske ikke andre billige muligheder, når vi taler om så store mængde data. Mener at bånd skal genskrives efter nogle år for at holde data ? Samt har ikke selv gode erfaringer med egne brændte. Selv de fabriksfremstillet fra midt 80'er , som ikke har ligget i solen eller i bunden af bilen. Ved godt det er blevet bedre, og at de opbevares under optimale forhold. Men hvad er levetiden ?

Nu ved jeg ikke helt hvad for type af data de opbevarer. Men hvis det f.eks. er vores alle sammens CPR nummer, adr, og en helt masse andet. Som forskere kunne være interesseret i om 100 år +

I stedet for at lave et udtræk årligt, eller hvordan det nu laves, kunne man i stedet ikke bare gemme ændringer, det vil mindske datamængden . Også kun en gang hver 10 år lave en ny kopi. Det vil gøre data lidt mere ømfindigt, men til gengæld er der meget mindre data at passe på ?

  • 1
  • 7
#4 Poul-Henning Kamp Blogger
  • 9
  • 0
#5 Christian Schmidt Blogger

Hvad mon vægter højst borgerens rettigheder eller behovet for at rigsarkivet ikke har alt data, fordi de ikke havde et system der kunne tage imod data?

Udfaldet synes givet på forhånd.

Traditionelt har hensynet til borgernes privatliv måtte vige for stort set ethvert andet hensyn, særligt hvis det drejer sig om forhold, der kan være det mindste til ulempe for stat og kommuner.

  • 4
  • 0
#6 Martin Sørensen

I stedet for at lave et udtræk årligt, eller hvordan det nu laves, kunne man i stedet ikke bare gemme ændringer, det vil mindske datamængden . Også kun en gang hver 10 år lave en ny kopi.

Hvis man kun gemmer differencer, så gør man sig mere følsom over for enkelte fejl, og det er ikke fordi den rå datamængde er så voldsom. Da jeg var derinde tidligere i år fik vi at vide at det p.t. er i omegnen af 1-2TB (ikke mere end en håndfuld skiver), dog vil det nok vokse eksponentielt. Pga. den lille datamængde så undrer det mig også lidt at de har brug for en robot til at brænde deres Bluray skiver. Kvaliteten af brændingen skal selvfølgeligt være i top, men brænder den bedre end en der fødes manuelt én skive af gangen?

  • 1
  • 0
#8 Hans Nielsen

Da jeg var derinde tidligere i år fik vi at vide at det p.t. er i omegnen af 1-2TB

Du mener tilgangen af ny data ?

Hvis vi siger alt, inden 1990 svarer til 1-2TB så snakker vi om i alt 30-60 Tb. Det er ikke meget mere end hvad jeg har koblet til af USB harddiske til backup. Det er i dag på 8Tb, så i vi snakker om data svaret til maximalt 10 USB harddiske.

Det lyder lidt mærkeligt med at de ikke kan håndtere det om 5 år ?

  • 0
  • 3
#9 Henrik Sørensen

Hvis det blev lovgivet om at et overordnet veldokumenteret åben, og patent frit standard for alt data i det offentlige.

@Hans, der er faktisk lovgivet om formatet i form af en bekendtgørelse der beskriver præcist hvordan data skal afleveres. Formatet er åbent, men udfordringerne ligger i dag i de avancerede filformater der benyttes i vores dagligdags programmer, fx Excel.

For at sikre, at data kan læses om 100+ år så ønsker arkivet at Excel filer udskrives i TIFF format ... hvilket umiddelbart lyder som en god idé, men når man så prøver det i praksis så er det en stor udfordring for hvordan tilpasser man Excel ark så de udskrives så ALLE data kan ses på en TIFF baseret version ... bare tænk kolonnebredde og celler med meget tekst men uden tekstomløb i cellen ... og så forestil dig de uendelige mængder Excel ark et journalsystem kan indeholde ... og Excel er blot et enkelt, men illustrativt eksempel ...

Opgaven ER på ingen måde simpel

  • 6
  • 0
#10 Martin Sørensen

Ifølge deres årsrapport https://www.sa.dk/wp-content/uploads/2018/03/%C3%85rsrapport-2017.pdf voksede datamængden i 2017 alene, med 22 tb (og 9000 hyldemeter)

Tak for linket, jeg må have blandet nogle af tallene sammen. 22 TB er heller ikke i nærheden af at være uoverkommeligt men spørgsmålet er hvor meget man så kan forvente at mængden vil vokse fremover?

  • 0
  • 0
#11 Michael Cederberg

Det er en del af strategien i det "Digitale Bitmagasin" at der existerer tre kopier på tre forskellige typer medie (bånd, disk & optisk).

Lige netop den strategi synes idiotisk. Bevaring af digital data for fremtiden synes at være verdens nemmeste opgave. Man gemmer det på et defacto readonly medie - hvilket afgøres af hvad der er billigst. Når man så skifter medie fordi ny teknologi opstår, så kopierer man til et nyt medie. Og fordi det er digital data så kan kopieringen ske uden fejl.

Jeg har uendeligt meget mere tillid til kommercielle standard systemer der bruges i millioner af virksomheder end på rigsarkivets hjemmebyggede ting.

Noget helt andet er så om man kan finde software der kan fortolke det digitale data i fremtiden. Jeg har et eller andet sted min første diskette der indeholder mit første Comal-80 program ... jeg kunne sikkert finde et 5.25" drev, men RC Piccolo softwaren der kan læse og fortolke programmet?

  • 0
  • 7
#12 Martin Sørensen

Lige netop den strategi synes idiotisk. Bevaring af digital data for fremtiden synes at være verdens nemmeste opgave.

Det er tydeligvis ikke noget du ved så meget om, for så ville du vide at det langtfra er en nem opgave. Hvis man blot gemte data på et enkelt medie så kan man ikke sikre sig mod f.eks. produktions/designfejl i mediet. Hvem kan sige med sikkerhed at de skiver man brænder i dag kan læses om et år? Det kan man først vide om et år. Den risiko kan man reducere ved at sprede sig over flere typer medier som samtidig er gemt på flere lokationer.

Mht. at kunne fortolke de data de gemmer, så gemmer de netop kun i specifikke formater som de med sikkerhed kan fortolke igen. De gemmer f.eks. ikke .docx filer direkte selv om der nok findes en del af dem i diverse systemer. Al data bliver løbende flyttet over på nye medier med jævne mellemrum og her bliver data også konverteret til nye formater hvis de er ændret i mellemtiden. Så de står aldrig over for at skulle læse >20 år gamle formater.

  • 6
  • 0
#14 Malthe Høj-Sunesen

De komprimere vel heller ikke data?

Jeg tror ikke Statens Arkiver gør noget ved afleveret data. Men afleverende myndighed må komprimere data:

5.E. Digitale dokumenter 5.E.1.a Et digitalt dokument, jf. dog 5.F og 5.G, skal lagres i ét af følgende formater: – det grafiske bitmapformat TIFF, version 6.0 baseline. – JPEG-2000 efter standarden ISO/IEC 15444-1:2004. Information technology - JPEG 2000 image coding system - Part 1: Core coding system. 5.E.2 Dokumenter i TIFF skal komprimeres efter følgende kompressionsregler: 5.E.2.a Sort/hvide dokumenter skal komprimeres med CCITT/TSS grp. 3, grp. 4, PackBit eller LZW. 5.E.2.b Dokumenter med gråtoner eller farver skal komprimeres med PackBit eller LZW.

Via https://www.sa.dk/wp-content/uploads/2014/10/Bekendtgoerelse-nr-1007-af-...

  • 1
  • 0
#15 Michael Cederberg

Det er tydeligvis ikke noget du ved så meget om, for så ville du vide at det langtfra er en nem opgave. Hvis man blot gemte data på et enkelt medie så kan man ikke sikre sig mod f.eks. produktions/designfejl i mediet. Hvem kan sige med sikkerhed at de skiver man brænder i dag kan læses om et år? Det kan man først vide om et år. Den risiko kan man reducere ved at sprede sig over flere typer medier som samtidig er gemt på flere lokationer.

Der er ingen grund til at vælge flere typer medier. Man kan bare have flere kopier af data - som du selv skriver på forskellige lokationer. Hvis man køber standard medier som ikke er latest and greatest teknologi, bruger forskellige leverandører og batches, etc. så opnår man det samme uden at skulle håndtere problematikken med hjemmelavede maskiner til at håndtere medier.

  • 0
  • 4
#18 Leif Neland

En bekendt har fået ny pc, men ville gerne køre videre med sin office 2007 og Refman.

Men office 2007 kan ikke aktiveres mere. - Men hvis jeg skifter office, kan Refman så køre? Jeg har mange data liggende i Refman.

Refman produceres og supporteres ikke mere, så det kan ikke garanteres at det vil kunne køre sammen med en moderne office.

Det kan sikkert konverteres til nyere systemer, men når man nu bare ville køre videre som man plejer uden at skulle omskoles...

  • 0
  • 0
#19 Poul-Henning Kamp Blogger

Der er ingen grund til at vælge flere typer medier. Man kan bare have flere kopier af data

Jo, det er der i allerhøjeste grad.

Datamedier med den nødvendige densitet er mildest talt meget skøbelige kontruktioner at forlade sig på, både for så vidt teknologien i sig selv men også de meget spinkle globaliserede supply-chains.

Taget i betragtning at det vi taler om her er arkivering af danmarkshistorie, er en trefoldig redundans i forhold til både medier og lokationer et helt fornuftigt valg.

  • 4
  • 0
#22 Kim Hansen

22TB lyder ikke af ret meget? Det skulle dække over "ordnede samlinger", men man skal nok være arkivar for at vide hvad det dækker over. Statusrapporten fra året før nævner dog at det aktuelle tal er ca. 25TB årligt, så det passer måske meget godt. Til gengæld forudser de en datamængde på 100TB årligt: https://www.sa.dk/wp-content/uploads/2016/12/Vidensrapport-2016.pdf. Jeg har selv dannet arkivversioner og afleveret til Rigsarkivet, og en enkelt aflevering med 5 års data fra en kommunes ESDH-system kan snildt fylde 2-3TB, selvom det er komprimeret maximalt. Man må formode at Rigsarkivet kender til omfanget af bevaringsværdige systemer i staten og kommunerne, og dermed kun modtager i omegnen af 50 afleveringer om året.

  • 1
  • 0
Log ind eller Opret konto for at kommentere