Statsbiblioteket: Ingen sag at gemme en bit i 100 år - det svære er at læse den

Når titusindvis af lydfiler skal konverteres fra MP3 til WAV på Statsbiblioteket for at blive bevaret for eftertiden, hvordan sikrer man så, at indholdet er det samme?

På Statsbiblioteket i Aarhus ligger i øjeblikket cirka 1,3 petabyte digital dansk kulturarv på bibliotekets storagesystemer. Den vokser selvsagt hele tiden i takt med, at der skrives nye tekster og laves nye tv- og radioprogrammer.

Men problemet er ikke kun, at datamængden vokser. Den store udfordring for Statsbiblioteket er, hvordan man får bevaret de mange data for eftertiden. Vel at mærke ikke bare de næste 10-20 år, men nærmere i mere end 100 år og helst for altid.

»Det ene problem er det, vi kalder bitbevaring, nemlig at alle bit skal forblive de samme i princippet i al evighed,« siger Bjarne Søgaard Andersen fra Statsbiblioteket til Version2.

Her er konventionel backupteknologi utilstrækkelig, fordi man i backup-systemer typisk har en master-kopi, som man laver kopier af. Men når dataene skal bevares over flere årtier og kopieres mange gange, stiger risikoen for, at der opstår fejl i overførsel af bits via netværket eller fejl på disk eller bånd.

»Hvis din master-kopi går i stykker, uden du opdager det, så går begge kopier i stykker. Og vi ved, at der er uopdagede fejl. Harddiske er ikke et 100 procent sikkert medie, når man når op i de datamængder, vi har med 500 til 800 diske i vores arrays,« forklarer Bjarne Søgaard Andersen.

Fejlene opstår typisk, når man skal migrere fra ét system til et andet på trods af, at systemerne har indbygget sikkerhed. Derfor deltager Statsbiblioteket sammen med andre institutioner i et internationalt forskningssamarbejde om at udvikle bedre metoder til at bruge for eksempel checksummer til at sikre, at kopierne er identiske med originalerne.

»Det er i udgangspunktet den nemme del, for det findes der metoder til. Den svære del er det, vi kalder logisk bevaring, nemlig om vi kan bruge de bevarede bit til noget,« siger Bjarne Søgaard Andersen til Version2.

Dataene ligger typisk i en lang række forskellige filformater, når de bliver indsamlet eller afleveret til Statsbiblioteket. Men det er ikke alle filformater, der er lige langtidsholdbare.

»De programmer, der kan vise filformaterne, ændrer sig over tid. Så det er måske ikke et problem om fem år, men der er stor sandsynlighed for, at formaterne og programmerne ikke findes om 50 eller 100 år,« siger Bjarne Søgaard Andersen.

Statsbiblioteket fravælger derfor arkivering i formater, som ikke er egnede. Det bliver vurderet ud fra en række kriterier som eksempelvis hvor åbent formatet er beskrevet.

Der er skrevet millioner af dokumenter i de gamle formater til Microsofts Office-pakke, men det er et format, som Microsoft ejer. Derfor er de nye Office-formater bedre egnede, fordi det er en åben standard, der er beskrevet i detaljer, og derfor lettere at arbejde med.

Men det handler også om, hvor komplicerede formaterne er, og om der findes mange værktøjer til at arbejde med formaterne. Eksempelvis er det vigtigt, at det er let at konvertere fra ét format til et andet ved hjælp af automatiske værktøjer.

»Vi har for eksempel millioner af Word-dokumenter, og hvis vi skal konvertere dem, så dur det ikke, hvis vi skal sidde og åbne dem enkeltvis,« siger Bjarne Søgaard Andersen.

Et af de foretrukne formater til arkivering er den variant af PDF som hedder PDF/A, der netop er designet specifikt til arkivering. Men selvom det er en standard, så skal man som arkivar stadig sikre sig, at et dokument, der er gemt i PDF/A, rent faktisk overholder standarden.

Læs også: XML, JPEG-2000 og UTF-8 bliver standard i Statens Arkiver ? PDF/A stadig ude i kulden

Det kan eksempelvis være at inkludere skrifttyper i selve dokumentet, så det også kan læses korrekt, når det skal åbnes om 50 på en computer, der ikke har den samme skrifttype installeret.

På det område samarbejder Statsbiblioteket også med forskere i flere internationale forskningsprojekter, som blandt andet udvikler værktøjer til at sikre, at alle data er konverteret korrekt, når man konverterer en million dokumenter.

Det kan for eksempel ske ved at lave en udskrift af originalen og kopien til en TIFF-billedfil og bruge billedanalyse til automatisk at vurdere, om de to stemmer overens.

Et andet problem for bevaringsarbejdet er, at der skal arbejdes med meget store mængder af filer, og der ikke findes værktøjer til eksempelvis at konvertere flere millioner PDF-dokumenter.

Læs også: Sandhedens øjeblik

Derfor arbejder forskerne også på at lave værktøjer, der kan udnytte cloud computing eller grid computing til konverteringsarbejdet.

»Hvis du skal konvertere 50 millioner PDF-dokumenter på én server, så vil det tage mange år,« siger Bjarne Søgaard Andersen.

Værktøjerne skal også kunne håndtere eventuelle fejl automatisk, fordi datamængderne er for store til, at det er praktisk med menneskelig indgriben.

Et af de konkrete forskningsprojekter på Statsbiblioteket i Aarhus er netop kvalitetssikring af lydfiler.

»Hvis vi skal konvertere fra eksempelvis MP3 til et format som WAV, så skal vi kunne kontrollere før og efter filerne,« forklarer Bjarne Søgaard Andersen.

Men her dur en simpel checksum ikke, fordi formaterne er vidt forskellige. Det nytter heller ikke at se på eksempelvis længden af lydfilen. Hvis konverteringsværktøjet er gået ned midt under konverteringen, så kan slutfilen stadig se ud til at have den korrekte længde, men halvdelen af filen er blot tom lyd.

»Derfor sammenligner vi waveforms, hvor vi med blandt andet Fourier-transformationer kan kontrollere, at lyden er den samme, forklarer Bjarne Søgaard Andersen.

Version2 sætter frem til 7. oktober fokus på storage.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (19)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Rune Juhl Jacobsen

Når titusindvis af lydfiler skal konverteres fra MP3 til WAV på Statsbiblioteket for at blive bevaret for eftertiden, hvordan sikrer man så, at indholdet er det samme?

»Det ene problem er det, vi kalder bitbevaring, nemlig at alle bit skal forblive de samme i princippet i al evighed,« siger Bjarne Søgaard Andersen fra Statsbiblioteket til Version2.

...hvorfor var det lige at filerne blev gemt som MP3 i første omgang? Er FLAC ikke en noget bedre løsning hvis man gerne vil gemme alt? Tilmed et åbent format der giver mindre filer end WAV.

Hvis konverteringsværktøjet er gået ned midt under konverteringen, så kan slutfilen stadig se ud til at have den korrekte længde, men halvdelen af filen er blot tom lyd.

»Derfor sammenligner vi waveforms, hvor vi med blandt andet Fourier-transformationer kan kontrollere, at lyden er den samme, forklarer Bjarne Søgaard Andersen.

Var det ikke en idé at bruge nogle mandetimer på at tage et konverteringsværktøj og tilføje checks der sikrer at dekomprimering sker korrekt, i stedet for at gennemgå resultatet med (F)FTs? Det virker som spild af tid -- hvad nu hvis der er en fejl i programmet der skal sammenligne waveforms?

  • 4
  • 0
Sune Marcher

@rune: det kan være at kildematerialet, af den ene eller anden grund, kun er tilgængeligt som mp3? Flac er trods alt ~8 år nyere end mp3.

@kim: at wav er et meget råt format, der unægteligt er noget lettere at dekode hvis menneskeheden skulle 'glemme' mp3 algoritmen... Og enkelte bitfejl betyder meget mindre.

  • 3
  • 0
Rune Juhl Jacobsen

@Sune: Ja, jeg tror at du har fat i den lange ende der.
Dog må man så undre sig endnu mere, for hvis de kan gemme så mange filer i al evighed, hvorfor kan de så ikke gemme en implementation af en MP3-dekoder? Når man ikke opnår noget ved MP3->WAV, hvorfor så overhovedet tage det skridt?
Så skulle det udelukkende være pga. bit-rot (bitfejl), men med en faktor 10 i størrelse mellem MP3 og WAV kunne man måske opbevare flere kopier af hver MP3 samt et hash, og så køre integritetscheck med regelmæssige mellemrum.

  • 3
  • 0
Ove Andersen

Dog må man så undre sig endnu mere, for hvis de kan gemme så mange filer i al evighed, hvorfor kan de så ikke gemme en implementation af en MP3-dekoder?

Hvis de gemmer en implementation af en MP3 dekoder, så skal de vel også gemme en version af et styresystem der kan eksekvere den MP3 dekoder.. Og så skal de også have noget hardware der kan køre det styresystem.. Osv. osv. Og MP3 dekoderen skal jo være "god nok" til ikke at lave fejl i nogle henseender, heller ikke i fremtiden.

Det er vel netop dette de vil prøve at undgå, at de skal have software, OS, hardware liggende, for at kunne afspille gamle filer, eller skulle være nødt til at starte en virtuel maskine op med Windows XP, for at kunne åbne en bestemt type fil?

Nej så hellere holde det til så få standarder. MP3 er også et værre rodet format, med et utal af forskellige konfigurationer og versioner.

  • 0
  • 0
Rune Juhl Jacobsen

Hvis de gemmer en implementation af en MP3 dekoder, så skal de vel også gemme en version af et styresystem der kan eksekvere den MP3 dekoder..

Ah, det enig i. Hvis de glemmer en simpel implementation af en MP3-dekoder i et kendt programmeringssprog, så er jeg sikker på at der nok skal være en der kan kompilere eller re-implementere det om 100 år.

Jeg burde nok have skrevet "gemt en kopi af MP3-specifikationen" i stedet.

Jeg synes at det virker fjollet at skulle dekode et lossy format til et ukomprimeret format for at undgå problemer med at fremtidens generationer ikke kan høre det, når man lige så godt kan gemme specifikationen på lige fod med de data man gemmer. Glem ikke at det at gemme 10 gange så meget data selvfølgelig også medfører 10 gange så meget bitrot...

  • 0
  • 0
Torben Mogensen Blogger

Hvis de gemmer en implementation af en MP3 dekoder, så skal de vel også gemme en version af et styresystem der kan eksekvere den MP3 dekoder.

Ikke nødvendigvis. Man kan beskrive dekoderen i et meget simpelt højniveausprog, som er veldokumenteret og entydigt, så man hurtigt kan genimplementere det, hvis man ikke har en kørende version liggende. Dekoderen behøver ikke at være specielt hurtig, for hvis du bruger den om 50 år, er regnekraft næppe dit største problem.

  • 1
  • 0
Ove Andersen

Men hvad er nemmest? At have et hav af formater, som hvis man skal bruge en lydfil om 100 år skal man, når man har fundet filen, til at lave et program der kan afspille den. Det er ikke sikkert en medievirksomhed gider til alt det arbejde.

Så vil jeg tro det er lettere at konvertere filen til en højeste fællesnævner, så man kun skal koncentrere sig om så få formater som muligt, og så er man sikker på man altid kan bruge filen, også om 100 år.

Det er jo nok det samme der gør sig gældende med billed filer, video filer, osv. Det giver jo kun god mening at have så få formater som muligt, hvis man vil gøre systemet brugbart og effektivt i fremtiden.

Så tror jeg de er næsten ligeglade med, om kvaliteten bliver den samme og filen fylder mere, hvis de bliver fri for at tænke på at det specifikke MP3 format skal kunne aflæses om 100 år..

  • 2
  • 0
Thomas Nielsen

Nu fremgår det ikke af artiklen hvordan konverteringerne i praksis foregår (hvilket forøvrigt kunne være mægtig interessant læsning), men med de nævnte datamængder er jeg sikker på at der i forvejen er tale om paralleliserede processer. Problematikken er snarere at man ikke kan vide noget om i dag, hvordan arkitekturerne ser ud om 100 år og at man derfor bliver nødt til at "modernisere" sine data stepvis.

Og egentlig er det jo rigtigt interessant i det hele taget, for prøv lige at kigge på Ingeniørens "spørg læserne om gamle dimser", hvor der jævnligt dukker en dims op som giver mange kuriøse identifikationer. Disse dimser er sjældent ældre end 75 år gamle. Forestiller man sig så samme klumme i Ingeniøren om 100 år... "jeg har fundet denne samling nuller og ettaller på loftet. Er der nogen der kan genkende dem?" Jo, det skal nok blive spændende :-). Nåh, jo. Det jeg synes er tankevækkende er, at 100 år jo ikke er noget at regne i historisk perspektiv. Hvad med 200 år. Eller 500 år. 1000?

  • 0
  • 0
Peter Makholm Blogger

...hvorfor var det lige at filerne blev gemt som MP3 i første omgang?

Muligvis fordi der er tale om pligtafleverede udgivelser der har brugt dette format. Pligtafleveringen gælder den form som værket er blevet udgivet i og hverklen den form der er lettest at arkivere eller den form der er lettes at "arbejde videre med".

Iøvrigt giver det for mig god mening at konvertere til nogle få udvalgte formater mens formaterne stadigvæk er i daglig brug. Men jeg håber da at man også gemme den originale pligtafleverede udgave samt forsøger at gemme dokumentation nok til at kunen tilgå formatet.

  • 4
  • 0
Jesper Lund Stocholm Blogger

Det er faktisk en rigtigt interessant problemstilling - nemlig

"Det ene problem er det, vi kalder bitbevaring, nemlig at alle bit skal forblive de samme i princippet i al evighed"

Tages tiden ud af denne ligning findes jo velafprøvede metoder som "error correcting codes". Hvis de kan genoprette et signal fra en satelit 1 mia km væk, så kan det andet nok også håndteres. Men hvad gør man, når tiden (evigheden) tages ind i ligningen? Eller hvad gør man, hvis den nødvendige fejlkorrigerende kode bliver så kompleks, at det ikke kan lade sig gøre (regnekraftsmæssigt) løbende at teste al deres terabytes af materiale?

... med håb om at V2 tager denne vinkel op i fremtidige opfølgninger på historien.

  • 1
  • 1
Jesper Stein Sandal

der kommer ikke noget godt ud af at konvertere fra mp3 til wav pga. lagring.

Hvis du tænker på pladsen, så kan man jo flytte komprimeringen fra selve formatet og overlade det storagesystemet. En WAV-fil kan jo for eksempel godt ZIP'es til at fylde mindre. På den måde bevarer man originaldataene i et simpelt format, og kan skifte komprimeringsteknologi flere gange i takt med, at man skifter storagesystem.

600 megabyte til en lyd-cd i WAV er formentligt også mikroskopisk i forhold til den tilgængelige lagerkapacitet, hvis man blot kigger 10 år frem. For 10 år siden var vi først lige begyndt at måle diskstørrelser i gigabyte - i dag er vi lige begyndt at måle dem i terabyte.

MP3 komprimerer trods alt ikke med en faktor 1000 (eller lad os bare sige faktor 100 for diskkapacitet på de sidste 10 år). :)

  • 0
  • 0
Lars Tørnes Hansen

Det her er et meget spændende emne.

Det kan godt være man kan læse bitsene langt ude i fremtiden, men man skal også have noget helst ret simpel software der kan forstå formatet bitsene udgør.

At løse det speciel hardware og evt. tilhørende specifik software er en værre løsning.

  • 0
  • 0
Bjarne Andersen

Jeg vil godt lige bekræfte og kommenterer på nogle af de spørgsmål og kommentarer der er bragt op her - i øvrigt rigtig gode spørgsmål og pointer.
1. Det er netop sagens kerne at Statsbiblioteket ofte modtager data i bestemte formater. Vi har i modsætning til fx. Statens Arkiver ikke mulighed for selv at specificere hvilke formater vi gerne vil have afleveret digitale data i. Derfor får vi ofte mange forskellige formater vi må forholde os til.
2. Scenariet med mp3 til wav giver jeg i udgangspunktet flere debattører ret i, ikke nødvendigvis giver mening på nuværende tidspunkt. Vi har rent faktisk ikke besluttet at gå den vej endnu - men vil måske gøre det i fremtiden. Lige nu vurderer vi, at der findes tilstrækkelig meget understøttelse for mp3 til at formatet godt kan bevares - men vi kan ikke vide om det også er sådan om 25 eller 100 år. Af mere presserende formater til konvertering har vi fx. RealAudio og WindowsMediaAudio.
3. At konvertere komprimerede formater til ukomprimerede kan synes spild af lagerplads, men i det lange perspektiv giver det god mening for os. Jeg er desuden helt enige i kommentarerne på det punkt omkring prisen på lagerplads. Vores 20Tb mp3-samling fylder godt nok 200Tbytes i lineær wav - men om 10 år kan der sandsynligvis være netop 10 gange så meget på en harddisk til nogenlunde samme pris - så prisen alene er på sigt ikke et argument for at lade være med at konvertere. Netop at få ensartet formaterne i vores arkiver vil på sigt gøre det nemmere at håndtere de meget store datamængder - ikke mindst ift. at giver vores brugere adgang (hvilket ofte implicerer at vi generere en web-venlig udgave af data - fx. en h.264 video ud af en mpeg-2 original)
4. Der er faktisk en god pointe i at gemme de forskellige kopier af data på forskellige medier for at sprede risikoen for hardware/OS fejl ud på flere leverandører/teknologier. Statsbiblioteket opbevarer typisk 3 kopier af alle filer og disse skal spredes på mindst 2 forskellige teknologier (typsik disk + bånd hos os)

  • 0
  • 0
Colin Rosenthal

Interresant debat om mp3 v. wav. På Statsbiblioteket foretrækker man i princippet wav overfor mp3 blandt andet fordi ikke-komprimerede filer er mindre skrøbelige overfor bitfejl. Det samme gælder også billeder. Det er ikke så meget diskplads der tæller. En meget stor del af samlingerne er faktisk video (mest TV optagelser) og der giver det ikke ret meget mening at snakke om komprimeret v. ikke-komprimeret. Alle video er komprimert i et eller andet grad, så her gælder det om at vælge fornuftige containere, codecs og bitrates som kompromis mellem kvalitet, diskplads, format-åbenhed, og langtids-holdbarhed.

  • 0
  • 0
Toke Eskildsen

Det kongelige bibliotek i Holland har lavet en masse arbejde i denne sammenhæng. Et tidligt projekt gik ud på at lave et meget simpelt sprog (tænk 3-4 A4-sider til specifikationen) hvori der f.eks. kunne skrives en MP3-dekoder. Ved at gemme sprogspecifikationen og dekoderprogrammet skrevet i dette sprog, har man effektivt en implementation der kan langtidsbevares.

I praksis er der, som andre nævner, ofte problemer med at lave en god implementation af en dekoder for de ikke-trivielle formater. Den store svaghed her er at den eneste praktiske brug af dekoderen vil være engang i fremtiden så det er kun arkivarer der vil have interesse for at vedligeholde den. Derfor er konverteringen til et simplere og mere pladskrævende format en mere sikker løsning.

Personligt har jeg det meget fredeligt med at bevare udbredte formater som MP3 og JPEG uden migrering - når der findes milliarder af filer i et givet format anser jeg det for meget sandsynligt at vi vil blive ved med at kunne dekode disse formater så længe vores teknologiniveau ikke dropper under det nuværende.

Hvis vores teknologiniveau falder væsentligt har vi store problemer, men der er selve dekodningen af formaterne såmænd det mindste af det: Tilgang til RAIDede harddisks, komprimerede bånd eller hvad man nu bruger er en større barriere, for slet ikke at tale om aktiv migrering til nye medier for at sikre mod bit rot.

Disclaimer: Jeg arbejder som udvikler på Statsbiblioteket, men ikke med bevaring.

  • 0
  • 0
Log ind eller Opret konto for at kommentere