XML, JPEG-2000 og UTF-8 bliver standard i Statens Arkiver ? PDF/A stadig ude i kulden

Sporene fra den digitale forvaltning skal sikres for eftertiden. Statens Arkiver indfører fra i dag nye regler, der skal gøre det lettere at aflevere data.

Statens Arkiver er mildt sagt en konservativt anlagt organisation. Når tidshorisonten for éns arbejde er flere hundrede år, skal der være meget gode grunde til at lave om på procedurer og regler, der i sidste ende risikerer at betyde, at fremtidens historikere ikke aner, hvad der skete i det offentlige Danmark i starten af det 21. århundrede.

Derfor er det en stor nyhed, når Statens Arkiver vedtager nye regler for, hvordan digitale arkivalier skal afleveres. Og fra i dag, 1. september, skal alle data afleveres med XML-opmærkning.

»Vi forventer, at XML vil gøre det lettere for myndighederne at aflevere data til os. Og rent arkivteknisk er XML jo bare tekstfiler, så det bliver ikke noget problem,« siger chefkonsulent i Statens Arkiver Jan Dalsten Sørensen til Version2.

En anden nyhed er JPEG-2000, der nu indføres som supplerende format til visse dokumenttyper. Valget er kontroversielt, fordi kompressionsalgoritmen ikke er tabsfri, hvilket i sidste ende kan betyde tab af vigtig information, hvis billederne og dokumenterne over lange perioder bliver konverteret til den fremherskende filformat-standard.

»Vi mener faktisk, det er OK at vælge JPEG-2000 med tabsgivende kompression som alternativ til TIFF. Det skal anvendes til dokumenter, hvor det ikke er nødvendigt at kunne se hver enkelt pixel, og jeg kan give et eksempel med en myndighed, der skulle arkivere mange indscannede tegniner. I TIFF-format ville de fylde 40 terabyte, mens de som JPEG-2000-filer kun ville fylde 10 TB. Og det er både myndigheden og vi absolut interesserede i,« siger Jan Dalsten Sørensen

Han tilføjer, at det ikke-tabsgivende TIFF-format stadig er det primære arkiveringsformat, selv om det er blevet kritiseret for at være alt for pladskrævende.

**LÆS OGSÅ **Arkivering: Forslugent filformat koster kommuner dyrt

Til gengæld mener han ikke, at muligheden for at bruge JPEG-2000-filformatet er et radikalt brud med dansk arkiveringstradition:

»Nej, det mener jeg ikke. Vi har for eksempel længe brugt MP3 til at arkivere lydfiler. Og selvfølgelig skal vi altid afveje den optimale situation med, hvad der praktisk kan lade gøre,« siger Jan Dalsten Sørensen.

Som mange ellers havde ventet eller håbet, kommer det særligt arkiveringsvenlige PDF/A-format ikke med på listen over godkendte dokumentstandarder til arkivering.

»PDF/A er et spændende format, men er i øjeblikket lige en tand for spændende for os arkivfolk. Vi skal eksempelvis være helt sikre på kunne validere, om en given PDF/A-fil er korrekt lavet, og i øjeblikket giver forskellige valideringsværktøjer forskellige resultater. Så vi er ikke helt trygge ved det endnu,« siger Jan Dalsten Sørensen.

Endelig ændres tegnsæt-standarden til nu at være UTF-8.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (7)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Erik Cederstrand

En anden nyhed er JPEG-2000, der nu indføres som supplerende format til visse dokumenttyper. Valget er kontroversielt, fordi kompressionsalgoritmen ikke er tabsfri, hvilket i sidste ende kan betyde tab af vigtig information, hvis billederne og dokumenterne over lange perioder bliver konverteret til den fremherskende filformat-standard

Der sker jo allerede et tab af information, når dokumenterne bliver scannet. At komprimere med et tab på f.eks. 10% mod at reducere datamængen med 75% lyder kun som sund fornuft. Efterhånden som lagerplads bliver billigere kan man jo vælge at scanne i højere opløsning.

  • 0
  • 0
MIchael Fray

Den nye version af PDF/A (PDF/A-2) tillader også JPEG2000. Den nye version er lige på trapperne.

Den 29. september til 1. oktober afholdes den årlige PDF/A-konference. Der er megen viden at hente på få dage. Konferencen afholdes i år i Rom :-)

MVH
Michael Fray

  • 0
  • 0
Jesper S. Møller

Og så kan man ellers sætte sine data op lige så vanvittigt som man har lyst til, blot man gør det i en XML fil?

Rolig, check dit blodtryk inden du poster.

Der må vel være en specifikation for hvorledes disse filer skal udformes.

Selvfølgelig er der det:

http://www.sa.dk/content/dk/for_statslige_myndigheder/aflevering/it-syst...

Det er ganske rigtigt metadata for det egentlige tabelbaserede indhold, der beskrives i en konkret XML dokumenttype.

  • 0
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize