Sådan giver Statsbiblioteket adgang til 350 terabytes dansk internethistorie

Statsbiblioteket i Aarhus arbejder på at gøre samlingen af danske hjemmesider gennem tiden tilgængelige for forskere ved hjælp af blandt andet Hadoop.

Mindst fire gange om året besøger en webcrawler fra Statsbiblioteket i Aarhus hver eneste offentligt tilgængelige hjemmeside på den danske del af internettet. Det sker for at bevare den del af vores kulturhistorie, som kun eksisterer på internettet.

I øjeblikket har Statsbiblioteket en samling i det såkaldte netarkiv på cirka 350 terabytes, som bliver opbevaret både for eftertiden og til forskningsbrug.

»Siden 2005 har vi lagret den digitale kulturarv i temmelig store mængder. Vi har 350 terabytes i vores netarkiv og cirka 1,2 petabytes med radio og tv,« fortæller leder af it-bevaring Bjarne Søgaard Andersen fra Statsbiblioteket til Version2.

Da der er tale om en unik samling, bliver der gemt tre kopier af alle data, så Statsbiblioteket i øjeblikket lagrer 4,5 petabytes. Netarkivet findes i to udgaver på magnetbånd og én på diske, mens radio og tv i dag ligger som tre kopier på magnetbånd. Det vil simpelthen være for dyrt at have alle udsendelser liggende på diske.

Den ene udgave af båndkopierne er dog en near-line-udgave, som er klar i båndrobotten, så dataene kan tilgås forholdsvis hurtigt. Desuden har Statsbiblioteket en kopi i lavere kvalitet, som ligger på diske, som forskere kan få hurtig adgang til.

Læs også: Statsbiblioteket: Ingen sag at gemme en bit i 100 år - det svære er at læse den

Software skal kunne grave i arkivet

Hidtil har forskere, som har villet bruge dataene i netarkivet, kun kunnet arbejde med enkelte bidder af gangen via et webinterface. Men arkivet kan også være interessant at grave i på større skala, og det vil Statsbiblioteket nu gøre muligt ved at kombinere mulighederne i et nyindkøbt storagesystem med teknologier som eksempelvis Hadoop.

»Vi vil give mere maskinel og processeringsadgang til vores data. Der sidder for eksempel en forskergruppe på Aarhus Universitet, som gerne vil lave linkanalyser, altså hvilke sider der linker til hvilke over tid,« forklarer Bjarne Søgaard Andersen.

Sådan en analyse vil eksempelvis kunne fortælle, hvordan kommunikationen foregår på nettet i forbindelse med et folketingsvalg.

Den type analyse vil ikke kunne lade sig gøre uden en særlig infrastruktur. For at udnytte data på denne skala er det nødvendigt at eliminere afstanden mellem regnekraften i serverne og selve dataene, men Statsbibliotekets gamle storagesystem var et SAN med begrænset netværkskapacitet i forhold til datamængden.

Statsbibliotekets nye storagesystem er baseret på EMC's Isilon-platform med ti gange mere båndbredde og mulighed for at placere databehandlingsenheder direkte i forbindelse med storagesystemet.

Det giver mulighed for, at forskerne kan skrive software, som kan trække data ud og analysere dem i forhold til at finde overordnede sammenhænge.

»Det giver også nogle udfordringer. For det kunne jo være historikere eller sprogforskere. De har traditionelt arbejdet med én kilde ad gangen, så forskerne skal også uddannes til at forstå denne måde at arbejde på, og der skal også programmeres,« siger Bjarne Søgaard Andersen.

Databehandling på stor skala er velkendt blandt fysikere, mens det er forholdsvis jomfrueligt land for de humanistiske videnskaber. Derfor har forskningsgruppen ved DigHumLab ved Aarhus Universitet også ansat en programmør til at hjælpe forskerne med teknik og programmering.

Vi skal lave forskningsinfrastruktur

Statsbiblioteket deltager i det internationale Scape-projekt sammen med lignende institutioner i en række europæiske lande. Det er et projekt, som går ud på at opbygge teknologier til at stille data til rådighed for systematisk databehandling i forbindelse med digital bevaring.

Fælles for Scape-samarbejdets delprojekter er, at systemerne skal være skalerbare for at kunne håndtere de meget store datamængder, og derfor er Hadoop og de tilhørende filsystemer og databaser oplagte.

Det betyder, at en forsker fra tidligere at have været begrænset til at lave analyser på én server i stedet kan udnytte en hel klynge.

»Med de datamængder, vi er oppe på, så er én server ikke nok. Hvis man i stedet har en klynge med 50 processorer, så kan man behandle mange flere data rigtig hurtigt,« siger Bjarne Søgaard Andersen.

Netværket blev imidlertid en flaskehals i det gamle SAN, hvorimod det nye system giver mulighed for at koble beregningsenheder direkte ind i storagesystemet. Nu kan Statsbiblioteket køre Scape-projekter med en klynge på 20 processorer, og ydelsen har vist sig at være 250 gange hurtigere end før.

Selve storagesystemet er hovedsageligt kun almindelige diske, fordi den største udfordring er kapacitet. Deciderede cache-enheder er heller ikke umiddelbart omkostningerne værd.

»Vi bruger typisk rent diske, fordi vi mest vil skulle læse alle data hele tiden,« forklarer Bjarne Søgaard Andersen.

Caching er mest fordelagtigt, hvis man har en mindre andel af sine data, som læses eller skrives meget mere hyppigt end resten. Statsbiblioteket benytter da også flash-baseret cache, men ikke på selve arkivet, men i stedet på bibliotekets søgesystem.

»Vi vil hellere bruge pengene på at sætte ekstra databehandlingsenheder i systemet til Hadoop end købe cache til arkivet,« siger Bjarne Søgaard Andersen.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (0)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere