Nyhedsbrev

Få it-nyheder og blogs hver dag
og vind en Nintendo Wii.



feeds RSS Nyhedsfeed
Afstemning

Bruger du bruge samme password til alle websites?





Deltag i debatten

Sådan genopstår to millioner danske avis-sider med open source

It-udfordringen: Alle udgaver af Politiken og Ekstra Bladet gennem over 100 år skal scannes og gøres fuldstændigt søgbare. Det sker blandt andet med open source-søgemaskinen Apache Solr.

It-udfordringen
Skal du i dag se, hvad der stod i en gammel avis, foregår det ved at besøge et stort bibliotek og fyre op for mikrofilmsfremviseren.

Men for Politiken og Ekstra Bladet er denne celluloid-teknologi godt i gang med at blive erstattet af en mere moderne løsning: Alle udgivelser siden Politiken så dagens lys i 1884 bliver i de kommende måneder lagt ind som e-avis på nettet. Indtil videre er 24 årgange af de to aviser klar til brug, koncentreret om historisk interessante år. Resten er klar til sommer.

Politikens Fond har betalt projektet, og Visiolink står for at føre det ud i livet. Her fortæller direktør Jens Funder Berg om projektet.
Billede
Jens Funder Berg, direktør for Visiolink.
Hvad går projektet ud på?

»Vi skal scanne to millioner avissider fra mikrofilm, og så lægge indholdet ud på nettet som Flash-baserede e-papers. Så vi tager indhold og data, der er svært tilgængeligt i dag, og gør det søgbart. Man kan søge frit i al tekst fra alle aviserne gennem årene. Mikrofilm er jo en ret håbløs teknologi, i forhold til hvad man kan i dag.

Med projektet bliver over 100 års aviser gjort nemme at søge i og læse, så vi kan følge med i samtiden dengang. Det er en del af den danske kulturarv.«
Billede
Politikens forside fra 20. november 1956. Læs hele avisen via det eksterne link under artiklen.
Hvad er din rolle i projektet?

»Jeg er direktør for Visiolink, som er totalleverandør på projektet, fra vi får udleveret filmene til den færdige løsning er leveret. Vi har to-tre mand på projektet, og så har vi underleverandører til at stå for scanningen og OCR, altså tekstgenkendelse. Vi er et softwarefirma og står for database- og Flash-teknologien.«

Hvilken teknologi indgår i projektet?

»Slutresultatet vises i Flash, på samme platform som vi har 270 aviser kørende på til daglig. Backend bruger vi PHP og MySQL, og selve søgedatabasen er Lucene fra Apache, som også er open source og udviklet i Java. Det er en meget heftigt dimensioneret database, man også bruger af store amerikanske portaler som Cnet.com. Vi bruger en overbygning på Lucene, kaldet Solr, der løbende udbygges af Apache. Generelt har vi en strategi om at bruge Linux og open source i firmaet.

Med alle rådata regner vi med at have 13 terabyte data, og så kommer der 2-3 terabyte online. Selve filhostingen er hos kunden, mens vi står for driften af det.«

Hvilke udfordringer har der været?

»Det er primært logistiske udfordringer, vi er stødt på. Rent teknisk har det været en udfordring at få en god nok billedkvalitet til at få en god tekstgenkendelse. En mikrofilm med et billede af en avis fra 1904 kan give en god nok grafisk kvalitet, men det er jo ikke på højde med, hvad man kunne få, hvis vi scannede avisen i dag.

For at sikre mod fejl i tekstgenkendelsen og kvalitetssikre søgeresultaterne kører vi OCR-scanningerne op mod en ordbog. Men fordi man skrev nogle ord anderledes i gamle dage, for eksempel dobbelt-a i stedet for bolle-å, har vi også skullet bruge gamle ordbøger.

Hvilke gode råd kan I give videre?

»Der har ikke været så mange overraskelser. Men logistikken er vigtig, når man har 2.500 mikrofilm. Man skal have en god filstruktur og struktur for navngivningen, og man skal have logs for alt, hvad man laver.

Og så gælder det også med sådan et projekt, at der skal være tydelige aftaler og kravspecifikationer.«

Se et eksempel på en indscannet avis via fanebladet 'eksterne links'.


It-udfordringen er en serie på Version2, der hver fredag dykker ned i et projekt fra den danske it-hverdag.

Bliv klogere på artiklens emner i Version2's gruppeunivers:



Kommentarer (20)
af Lars Lundin, 8. januar 2010 16:19

Vældig god ide, men hvorfor skal det udføres med flash?

Jeg kan godt se at det ser "smart" ud når man bladrer, men det fungerer dårligt og er vældigt langsomt på min Nokia N900. :-(

af Patrick Timm, 8. januar 2010 16:36

Er der tænkt på understøttelse af e-readers som fx Kindle?

Ligger data i et "råt" format, der benyttes af en Flash applikation eller er data formateret direkte til Flash-brug?
af Hans Schou, 8. januar 2010 19:46

Jeg håber ikke det bliver samme format som Saxo Grammaticus kommer i. Jeg ser en tom skærm ved at klikke på det eksterne link. For mig er det lige som DR-TV, gratis og utilgængeligt, og så er det jo egentlig ret ligemeget.

Jeg brugte Firefox og Flash er installeret til testen.
af Lasse Reinholt, 8. januar 2010 20:07

Det er ret irriterende at bladre med den langsomme og trælse animation, som vises hver gang. Jeg kan fx ikke klikke 4 gange hurtigt efter hinanden. PDF?
af Daniel Schledermann, 8. januar 2010 20:31

Jeg kan nu godt få det til at virke, men jeg er enig i at flash ikke er det perfekte format. Et mere tekstnært format ville nok være at foretrække.
af Janus Boye, 9. januar 2010 00:14

Virker nærmest ikke som en digitalisering når man går fra mikrofilm til flash. Tror ærlig talt at mikrofilm er mere fremtidssikkert.
af Kent Knudsen, 9. januar 2010 03:16

Virker temmeligt fint her (Linux laptop, Firefox) - min MediaWrap extension i FF skulle lige slåes fra!

Flash virker udemærket, er hurtigt og nemt her på min Linux laptop. Husk nu at Flash jo ikke er teknologien der har erstattet mikrofilmen, men det har derimod selve digitaliseringen (fra papir til database). Hvordan man præsenterer data for brugeren kan jo altid laves om, skulle man vælge andre visningsmetoder end Flash.

Se det positive i det. Glæd jer over de mange træer der overlever når alle aviser og blade/reklamer bliver elektroniske. Ros til avishusene for at stille de gamle aviser til rådighed.
af Kim Henriksen, 9. januar 2010 12:17

Man kan jo dårlig nok læse teksten, på den demo?
af Thomas Würgler, 9. januar 2010 12:59

En stor del af avisen er jo ulæselig, selv om man zoomer godt ind. Jeg håber godt nok, at kvaliteten på det endelige produkt er langt højere. Ellers er det penge ud ad vinduet.
af Kent Knudsen, 9. januar 2010 17:09

Jeg kan godt læse al tesksten, selvom den steder er en del utydelig. Tænk på at den originale avis er fra 1956 og tryksværten sikkert ikke er helt frisk og tydelig længere. Når vi kigger på de nyere årgange bliver det sikkert bedre. De gamle kirkebøger fra slutningen af 1800-tallet, der nu er ved at blive skannet ind, "lider" af samme skæbne, men med lidt god vilje kan man læse dem.
af Birger Nielsen, 9. januar 2010 18:06

Virker også upåklageligt hér (W7 + Ie8) - hurtigt og læsbart når der zoomes ind.

Måske man sku' skifte abonnement :)
af Lars Lundin, 9. januar 2010 18:12

Tænk på at den originale avis er fra 1956 og tryksværten sikkert ikke er helt frisk og tydelig længere. Når vi kigger på de nyere årgange bliver det sikkert bedre. De gamle kirkebøger fra slutningen af 1800-tallet, der nu er ved at blive skannet ind, "lider" af samme skæbne, men med lidt god vilje kan man læse dem.


Nej, man kan slet ikke sammenligne de to.

Både tryksværten og blækskriften i kirkebøgerne fra slutningen af 1800-tallet er i almindelighed i en fantastisk god tilstand. Men til trykningen af kirkebøgernes skemaer benyttede man sikkert også sværte af en anden kvalitet. At deres skanning (via arkivalieronline.dk) langt fra gengiver dette er en anden sag.

Kig lige på denne godt 200 år gamle affotograferede lægdsrulle, og se hvor godt både tryksværte og blækskrift har holdt sig (jeg havde ikke lige et passende kirkebogsfoto, men det er det samme):

http://www.eso.org/~llundin/P100019...

af Kent Knudsen, 9. januar 2010 19:39

Ja, du har nok ret i at kirkebøgerne har noget bedre holdbarhed - jeg kigger også af og til på arkivalieronline.dk - og finder flere skanning der ikke helt er læselig. Jeg har dog ikke ses originalerne, så jeg kan ikke vurdere om det er dårlig skanning eller dårlig original. Men min vurdering af den originale avis fra 1956 (som jeg heller ikke har set) er at teksten nok ikke er særlig tydelig og derfor er skanningen måske ikke blevet helt perfekt.
af Mads Lie Jensen, 10. januar 2010 09:27

Nu har jeg ikke set den omtalte avis, men, hvis al teksten alligevel er digitaliseret og gjort søgbar, hvorfor kan man så ikke få lov at læse den rå tekst, i en tydelig og læsbar udgave, i stedet for at vise en utydelig skannet udgave?

Ideen i hele projektet er jo glimrende, men at præsentere det i flash er da noget juks. Det er i hvert fald ikke noget jeg vil finde nogen glæde ved at læse igennem, hvis det præsenteres på den måde.

Det er et glimrende initiativ og et meget ambitiøst projekt.

Det er altid spændende at bladre i en gammel avis. Ikke kun de store historier og storpolitik, men også fx forsideartiklen om Arne Jacobsens nye SAS-hotel, der er ved at få byggetilladelse, en notits om de stigende problemer med spildevandsforurening, en kronik om slummen i de københavnske baggårde og et læserbrev vedr. månedskort til Københavns sporveie. Og så er der de faste elementer som reklamerne, der ser ud til primært at have kvinder som målgruppe, tv- og radiooversigten, biograflisterne og gode gamle ATS (At Tænke Sig).

Hvis man kigger i HTML-koden vha. browserens View source, kan man se nogle tekstbrokker, der tilsyneladende er avisens indhold i ren tekst men dog i en temmelig forvansket ud. Hvis dette er et udtryk for tekstgenkendelsens succesrate, må man sige, at der er et stykke vej endnu på den front. I forbindelse med dette projekt må man dog antage, at selve konverteringen fra mikrofilm til digitalt medie er det største arbejde. Herefter kan man jo genkøre tekstgenkendelsen af de indskannede bitmaps med jævne mellemrum, efterhånden som teknologien udvikler sig.

Virker også fint her (Vista + Firefox).

Blot synes jeg at udvælgelsen fra arkivet er noget besværlig.
Hver gang man vil vælge en avis starter man på dags dato og skal derefter klikke alle år igennem ned til det år, man er interesseret i. Vil man tilbage til 1956 skal man altså klikke 54 gange!

Det bliver forhåbentlig ændret til den endelige udgivelse.

Undskyld Visiolink, ikke helt så slemt. Man skal IKKE klikke 54 gange, men kan 'bladre' ved at holde 'v'-tasten nede.
Men kalenderfunktionen kunne nu stadig være bedre, efter min mening.
af Thomas Christensen, 12. januar 2010 23:07

De havde vel ikke tænkt sig at jeg skulle rotter min skærm?

Synes der mangler ne roterings funktion, så man kan læse de sider der er trykt på den andene led.
af Ann-Berit Jensen, 7. februar 2010 22:32

Som bibliotekar på et af de biblioteker, der ejer en samling mikrofilmede aviser, har jeg erfaret at det ofte kan være svært at læse teksten, og at problemet ligger i kvaliteten af optagelsen og ikke i læseapparatets visning. Så det undrer mig ikke, at de her viste avissider har svage partier i teksten, eftersom de laves ud fra mikrofilmene og ikke fra originalaviserne.
Jeg kan dog fint læse dem, når jeg zoomer godt ind.
Og det er er super tiltag at digitalisere de gamle aviser!
af Claus Waldersdorff Knudsen, 8. februar 2010 06:32

Rigtig spændende!

Så mangler der bare nogle gode open source folk der tilbyder at gå i gang med OCR, så man kan søge i de gamle annaler.

Ups, fik vist ikke nærlæst hele artiklen ;-)


E-mail:   Adgangskode:  
Ikke bruger? Opret en brugerkonto og deltag i debatten
Seneste blog-indlæg
Fremtidens programmering AF TORBEN MOGENSEN

9X effekten drukner innovation AF PETER NØRREGAARD