Dokument scanning

Vi har en masse gamle manualer ude i datamuseum.dk som vi gerne vil have digitaliseret.

Dertil har vi arvet en HP5590 (eller noget i den stil) scanner med arkføder osv.

Den kommer med noget skodsoftware fra HP der kører på en Windows Vista maskine, som kan producere nogle PDF filer med noget OCR undervejs.

At sige det virker "godt" ville være at overdrive.

Brugerinterfacet stinker. Selv noget så basalt som "side 37 af 104" mangler.

Ca. hver 8. side vælger den at dreje 90 grader. Bare sådan for at vise at den kan.

Og nu har jeg lige opdaget at output filerne er 10 gange større end nødvendigt: Den gemmer 300bpi sort-hvid som JPG format i PDF filerne.

Nu har jeg skrevet et python script der åbner PDF filen, henter JPG billederne ud, konverterer dem til monokrom, komprimeret TIFF, bruger tiffcp til at lave en pdf-fil og spytter en ny PDF fil ud, med OCR data fra den første og TIFF fra den anden fil.

Men det er jo, mildst talt, ikke nogen perfekt løsning.

Nogen bedre forslag ?

Findes der stadig slet ikke noget OCR der virker på en FOSS løsning ?

phk

Kommentarer (24)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Michael Bisbjerg

Hvis scanneren er bare lidt standard burde der vel findes scanner software til den?

Dette software kan måske producere PDF's eller en række TIFF billeder, som ud så kan køre Tesseract på (OSS-OCR)

http://code.google.com/p/tesseract-ocr/
http://ubuntuforums.org/showthread.php?t=880471

Jeg har selv brugt metoden ad nogle omgange, og har fundet at det virker nogenlunde... Men I kan jo prøve ;)

Lars Meldgård

Brug lidt småpenge på ABBYY FineReader 11 og en husholdningsscanner fra den lokale biks. Så har du scannet de første 5 bøger samme dag - uden ærgelser om dårlige scannerdrivere m.v.
Indrømmet, det er ikke open source, eller til Linux eller noget som helst. Men det virker!

Poul-Henning Kamp Blogger

Det er en "husholdningsscanner" vi har, men en model med arkføder.

Det er helt udelukket at skifte til noget hvor vi manuelt skal flytte hvert ark.

Hvis noget, ville jeg hellere opgradere til en "straight-thru" scanner der kan tage begge sider i et hug...

Maciej Szeliga

Jeg har muligvis et par HP 9100C "Digital Sender" stående, jeg checker på mandag... hvis jeg fortsat har dem så vil jeg gerne donere dem (de er blevet overflødiggjort af MFP'ere).
Det er en netværksscanner som kan sende til smb share eller med SMTP og har kapacitet i feederen til 50 ark, den scanner desværre kun på en side af arket. Jeg mener der er noget automatik så man bare "vender stakken" og så kan scanne anden side.

Ole Kaas

Kig på brothers multifunktionsmaskiner. Vi har både en MFC-8860DN (s/h) og en MFC-9840CDW (farve). Udskriftskvaliteten i farve lader noget tilbage at ønske - vores stenalder HP leverer et markant bedre resultat. Til gengæld virker arkføderesn (ADF) til indscanning fortræffeligt og begge kan klare duplex. Arkene bliver trukket lige ind og ét ad gangen :) Man kan definere forskellige profiler (f.eks 200dpi b/w) og der kan sendes til email eller ftp.

s_ mejlhede

Brother som Ole skriver.
Det vil jeg også anbefale, koster ikke ret meget, og arkføderne virker.
Som siger, farverne udskrifterne er ikke for gode, men neddæmp det røde og øg det blå, så er det næsten godt.
Desuden kan man få kompatibel patroner til 25-35 kr, med dobbelt indhold af blæk, og der er ingen chip på patronerne.

Martin Filtenborg

+1 til Brother - jeg har en lille model DCP-560CN som er udstyret med ADF. Og ja - forbrugsstoffer hjemkøbes i kvartlitersflasker fra fyldselv.dk, hvilket bringer refill-prisen ned på en flad tier pr. tank.
Medfølgende Windows-scanningssoftware kan fremstille multipage-PDF'er direkte fra ADF'en, men om størrelsen er optimeret aner jeg ikke. Jeg bruger den blot til at maile dokumenter med. Scan-til-dokument-i-mail funktion i een knap er simpelthen genialt; man lægger en lille stak papirer i ADF'en, trykker på knappen, udfylder popup-boxen med mailadresse og trykker 'send'. Wunderschön :)

Morten Krogh Andersen

også +1 til Brother (og deres linux support) herfra. Jeg har en DCP-9010CN som jeg primært bruger til scanning over netværk vha. gscan2pdf/sane.

Jeg har iøvrigt en DCP-540CN til overs; den kan du (eller andre) få kastet i nakken, hvis den bliver afhentet (nord for Aarhus) ;)

Keld Simonsen

De fleste nyere større kopimaskiner kan skanne, på begge sider, og så sende pdf-filen til en email. Nogen steder kan man med lidt smesken få lov til at bruge deres kopimaskine uden beregning, eller måske for en æske chokolade. Det koster jo "ikke noget" at skanne ind, hverken papir eller farvetoner.

Så kan man lægge det ud på nettet og lade Google komme forbi, og så laver Google en rimelig OCR.

Theodor Norup

Jeg har brugt http://gscan2pdf.sourceforge.net/ kombineret med Brother MFC-7700. Virker perfekt. Gscan2pdf understøtter alle SANE-understøttede scannere (hvilket er langt de fleste) og giver mulighed for at reorganisere de enkelte sider efter scanning (fx. vende landscape sider rigtigt, etc.), scanne et dokument i flere batches, mv.. Funker også med arkføder, men jeg har ikke haft mulighed for at prøve dobbeltsidet scanning, men med muligheden for at reorganisere siderne kan man om nødvendigt klare ved batchvis først scanne forside og derefter bagside... Måske kan reorganiseringen klares med lidt pdftk-hackning.

I et projekt har jeg for et par år siden OCR'et 100k+ tiff-billeder af dokumenter med tesseract, som er nævnt ovenfor. Tegngenkendelsen ved almindelig brødtekst er meget tilfredsstillende, selv ved uskarpe billeder.

Man skal have en af de seneste versioner fra code.google.com for at få danske tegn understøttet. For den uerfarne er der et par timers frustrerende slagsmål med autoconf inden oversættelse og linkning funker :-( Tesseract er single-threaded, så hvis man skal behandle rigtig mange sider er man nødt til at parallelisere ocr'ningen. Regn med cirka 2 sekunder pr. A4-side på en rigtig hurtig CPU.

Jeg har ikke prøvet kombinationen af gscan2pdf og tesseract.

Log ind eller Opret konto for at kommentere
Brugerundersøgelse Version2
maximize minimize