Dette indlæg er alene udtryk for skribentens egen holdning.

Dokument scanning

26. januar 2013 kl. 14:4824
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Vi har en masse gamle manualer ude i datamuseum.dk som vi gerne vil have digitaliseret.

Dertil har vi arvet en HP5590 (eller noget i den stil) scanner med arkføder osv.

Den kommer med noget skodsoftware fra HP der kører på en Windows Vista maskine, som kan producere nogle PDF filer med noget OCR undervejs.

At sige det virker "godt" ville være at overdrive.

Artiklen fortsætter efter annoncen

Brugerinterfacet stinker. Selv noget så basalt som "side 37 af 104" mangler.

Ca. hver 8. side vælger den at dreje 90 grader. Bare sådan for at vise at den kan.

Og nu har jeg lige opdaget at output filerne er 10 gange større end nødvendigt: Den gemmer 300bpi sort-hvid som JPG format i PDF filerne.

Nu har jeg skrevet et python script der åbner PDF filen, henter JPG billederne ud, konverterer dem til monokrom, komprimeret TIFF, bruger tiffcp til at lave en pdf-fil og spytter en ny PDF fil ud, med OCR data fra den første og TIFF fra den anden fil.

Artiklen fortsætter efter annoncen

Men det er jo, mildst talt, ikke nogen perfekt løsning.

Nogen bedre forslag ?

Findes der stadig slet ikke noget OCR der virker på en FOSS løsning ?

phk

24 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
22
28. januar 2013 kl. 19:45

Jeg har brugt http://gscan2pdf.sourceforge.net/ kombineret med Brother MFC-7700. Virker perfekt. Gscan2pdf understøtter alle SANE-understøttede scannere (hvilket er langt de fleste) og giver mulighed for at reorganisere de enkelte sider efter scanning (fx. vende landscape sider rigtigt, etc.), scanne et dokument i flere batches, mv.. Funker også med arkføder, men jeg har ikke haft mulighed for at prøve dobbeltsidet scanning, men med muligheden for at reorganisere siderne kan man om nødvendigt klare ved batchvis først scanne forside og derefter bagside... Måske kan reorganiseringen klares med lidt pdftk-hackning.

I et projekt har jeg for et par år siden OCR'et 100k+ tiff-billeder af dokumenter med tesseract, som er nævnt ovenfor. Tegngenkendelsen ved almindelig brødtekst er meget tilfredsstillende, selv ved uskarpe billeder.

Man skal have en af de seneste versioner fra code.google.com for at få danske tegn understøttet. For den uerfarne er der et par timers frustrerende slagsmål med autoconf inden oversættelse og linkning funker :-( Tesseract er single-threaded, så hvis man skal behandle rigtig mange sider er man nødt til at parallelisere ocr'ningen. Regn med cirka 2 sekunder pr. A4-side på en rigtig hurtig CPU.

Jeg har ikke prøvet kombinationen af gscan2pdf og tesseract.

20
28. januar 2013 kl. 14:14

De fleste nyere større kopimaskiner kan skanne, på begge sider, og så sende pdf-filen til en email. Nogen steder kan man med lidt smesken få lov til at bruge deres kopimaskine uden beregning, eller måske for en æske chokolade. Det koster jo "ikke noget" at skanne ind, hverken papir eller farvetoner.

Så kan man lægge det ud på nettet og lade Google komme forbi, og så laver Google en rimelig OCR.

16
28. januar 2013 kl. 10:34

Jeg har engang arbejdet med en Fujitsu fi 4340C. Den kører alt igennem uden problemer, og er fantastisk hurtig :-)

Der er dog desværre ikke lige nogle brugte i DK - og afløseren er DYR...

18
28. januar 2013 kl. 13:07

Fujitsu fi 4340C.

Fujitsu har nogle utroligt gode scannere, men de fleste er langt udenfor vores budget (fi5950 til $20k anyone ?)

Til gengæld kan man køre en tortilla igennem den i fuld hastighed...

19
28. januar 2013 kl. 13:27

:-)

Ovenstående gamle sag kan jeg se er til salg på EBay i Tyskland til £269:

ebay

15
28. januar 2013 kl. 10:26

Takker for diverse tilbud, men baseret på erfaringen med HP'en tror jeg at en direkte papirføring med toside scanning er et ufravigeligt krav.

12
28. januar 2013 kl. 09:10

også +1 til Brother (og deres linux support) herfra. Jeg har en DCP-9010CN som jeg primært bruger til scanning over netværk vha. gscan2pdf/sane.

Jeg har iøvrigt en DCP-540CN til overs; den kan du (eller andre) få kastet i nakken, hvis den bliver afhentet (nord for Aarhus) ;)

13
28. januar 2013 kl. 09:36

Det glemte jeg helt... Ros til Brother for officielt at inkludere Linux i 'det gode selskab'. Faktisk 'stemte jeg med fødderne' dengang jeg skulle vælge en ny printer, og det blev så Brother der vandt valget :)

8
27. januar 2013 kl. 17:35

Kig på brothers multifunktionsmaskiner. Vi har både en MFC-8860DN (s/h) og en MFC-9840CDW (farve). Udskriftskvaliteten i farve lader noget tilbage at ønske - vores stenalder HP leverer et markant bedre resultat. Til gengæld virker arkføderesn (ADF) til indscanning fortræffeligt og begge kan klare duplex. Arkene bliver trukket lige ind og ét ad gangen :) Man kan definere forskellige profiler (f.eks 200dpi b/w) og der kan sendes til email eller ftp.

9
27. januar 2013 kl. 18:53

Brother som Ole skriver. Det vil jeg også anbefale, koster ikke ret meget, og arkføderne virker. Som siger, farverne udskrifterne er ikke for gode, men neddæmp det røde og øg det blå, så er det næsten godt. Desuden kan man få kompatibel patroner til 25-35 kr, med dobbelt indhold af blæk, og der er ingen chip på patronerne.

11
28. januar 2013 kl. 08:23

+1 til Brother - jeg har en lille model DCP-560CN som er udstyret med ADF. Og ja - forbrugsstoffer hjemkøbes i kvartlitersflasker fra fyldselv.dk, hvilket bringer refill-prisen ned på en flad tier pr. tank. Medfølgende Windows-scanningssoftware kan fremstille multipage-PDF'er direkte fra ADF'en, men om størrelsen er optimeret aner jeg ikke. Jeg bruger den blot til at maile dokumenter med. Scan-til-dokument-i-mail funktion i een knap er simpelthen genialt; man lægger en lille stak papirer i ADF'en, trykker på knappen, udfylder popup-boxen med mailadresse og trykker 'send'. Wunderschön :)

10
27. januar 2013 kl. 20:08

Jeg sad faktisk og kiggede på Brothers ADS2600W, nogen der har erfaring med den ?

4
26. januar 2013 kl. 16:55

Jeg bruger selv dette produkt til både min flatbed scanner og til filmscanner. Det supporter næsten alt, som kan scanne. Det er ikke gratis, men man kan downloade en prøveversion for at se, om det kan bruges til opgaven. HP5590 er supportet på Windows og Mac, men læs evt. selv på http://www.hamrick.com

3
26. januar 2013 kl. 16:43

Brug lidt småpenge på ABBYY FineReader 11 og en husholdningsscanner fra den lokale biks. Så har du scannet de første 5 bøger samme dag - uden ærgelser om dårlige scannerdrivere m.v. Indrømmet, det er ikke open source, eller til Linux eller noget som helst. Men det virker!

5
26. januar 2013 kl. 17:01

Det er en "husholdningsscanner" vi har, men en model med arkføder.

Det er helt udelukket at skifte til noget hvor vi manuelt skal flytte hvert ark.

Hvis noget, ville jeg hellere opgradere til en "straight-thru" scanner der kan tage begge sider i et hug...

6
26. januar 2013 kl. 17:41

Jeg har muligvis et par HP 9100C "Digital Sender" stående, jeg checker på mandag... hvis jeg fortsat har dem så vil jeg gerne donere dem (de er blevet overflødiggjort af MFP'ere). Det er en netværksscanner som kan sende til smb share eller med SMTP og har kapacitet i feederen til 50 ark, den scanner desværre kun på en side af arket. Jeg mener der er noget automatik så man bare "vender stakken" og så kan scanne anden side.

17
28. januar 2013 kl. 12:42

Hej Maciej Szeliga. Jeg har længe været på jagt efter en HP 9100C. Så hvis du har nogen stykker kunne jeg godt være aftager af en?

24
29. januar 2013 kl. 10:26

Det er bare helt fint. Tak for kigget.