Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Whitepapers
  • Opret bruger
  • Log ind
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?
Se kommentarer (24)
Emner Elektronisk sags- og dokumenthåndtering (ESDH)

Dokument scanning

Af Poul-Henning Kamp 26. januar 2013 kl. 14:48

Vi har en masse gamle manualer ude i datamuseum.dk som vi gerne vil have digitaliseret.

Dertil har vi arvet en HP5590 (eller noget i den stil) scanner med arkføder osv.

Den kommer med noget skodsoftware fra HP der kører på en Windows Vista maskine, som kan producere nogle PDF filer med noget OCR undervejs.

At sige det virker "godt" ville være at overdrive.

Brugerinterfacet stinker. Selv noget så basalt som "side 37 af 104" mangler.

Ca. hver 8. side vælger den at dreje 90 grader. Bare sådan for at vise at den kan.

Og nu har jeg lige opdaget at output filerne er 10 gange større end nødvendigt: Den gemmer 300bpi sort-hvid som JPG format i PDF filerne.

Nu har jeg skrevet et python script der åbner PDF filen, henter JPG billederne ud, konverterer dem til monokrom, komprimeret TIFF, bruger tiffcp til at lave en pdf-fil og spytter en ny PDF fil ud, med OCR data fra den første og TIFF fra den anden fil.

Men det er jo, mildst talt, ikke nogen perfekt løsning.

Nogen bedre forslag ?

Findes der stadig slet ikke noget OCR der virker på en FOSS løsning ?

phk

Send Tweet
Udskriv
Billede af Poul-Henning KampOm Poul-Henning Kamp

Poul-Henning er selvstændig systemprogrammør, kernekoder, Varnish-forfatter, data-arkæolog og brokkehoved uden særlig portefølje.

Follow @bsdphk

Kommentarer (24)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Michael Bisbjerg 26. jan. 2013 - 16.05
 
Tesseract

Hvis scanneren er bare lidt standard burde der vel findes scanner software til den?

Dette software kan måske producere PDF's eller en række TIFF billeder, som ud så kan køre Tesseract på (OSS-OCR)

http://code.google.com/p/tesseract-ocr/
http://ubuntuforums.org/showthread.php?t=880471

Jeg har selv brugt metoden ad nogle omgange, og har fundet at det virker nogenlunde... Men I kan jo prøve ;)

  • Stem op 1
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Maciej Szeliga 26. jan. 2013 - 16.10
 
Findes der stadig slet ikke noget OCR...

PJ fra Groklaw nævnte noget om noget som hedder Tesseract, de skulle digitalisere en masse dokumenter fra SCO sagen.

http://sourceforge.net/projects/tesseract-ocr/

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Lars Meldgård 26. jan. 2013 - 16.43
 
OCR

Brug lidt småpenge på ABBYY FineReader 11 og en husholdningsscanner fra den lokale biks. Så har du scannet de første 5 bøger samme dag - uden ærgelser om dårlige scannerdrivere m.v.
Indrømmet, det er ikke open source, eller til Linux eller noget som helst. Men det virker!

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Erik P. Olsen 26. jan. 2013 - 16.55
 
VueScan

Jeg bruger selv dette produkt til både min flatbed scanner og til filmscanner. Det supporter næsten alt, som kan scanne. Det er ikke gratis, men man kan downloade en prøveversion for at se, om det kan bruges til opgaven. HP5590 er supportet på Windows og Mac, men læs evt. selv på http://www.hamrick.com

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 26. jan. 2013 - 17.01
 
Re: OCR

Det er en "husholdningsscanner" vi har, men en model med arkføder.

Det er helt udelukket at skifte til noget hvor vi manuelt skal flytte hvert ark.

Hvis noget, ville jeg hellere opgradere til en "straight-thru" scanner der kan tage begge sider i et hug...

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Maciej Szeliga 26. jan. 2013 - 17.41
 
Re: OCR

Jeg har muligvis et par HP 9100C "Digital Sender" stående, jeg checker på mandag... hvis jeg fortsat har dem så vil jeg gerne donere dem (de er blevet overflødiggjort af MFP'ere).
Det er en netværksscanner som kan sende til smb share eller med SMTP og har kapacitet i feederen til 50 ark, den scanner desværre kun på en side af arket. Jeg mener der er noget automatik så man bare "vender stakken" og så kan scanne anden side.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Bjarke Walling 26. jan. 2013 - 23.15
 
Måske ikke relevant ...

... men jeg kan godt lide den her DIY-bogscanner fra Google:
http://code.google.com/p/linear-book-scanner/

De siger kun noget om selve scannings-processen, ikke om OCR af det scannede.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Ole Kaas 27. jan. 2013 - 17.35
 
Brother

Kig på brothers multifunktionsmaskiner. Vi har både en MFC-8860DN (s/h) og en MFC-9840CDW (farve). Udskriftskvaliteten i farve lader noget tilbage at ønske - vores stenalder HP leverer et markant bedre resultat. Til gengæld virker arkføderesn (ADF) til indscanning fortræffeligt og begge kan klare duplex. Arkene bliver trukket lige ind og ét ad gangen :) Man kan definere forskellige profiler (f.eks 200dpi b/w) og der kan sendes til email eller ftp.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Søren Mejlhede 27. jan. 2013 - 18.53
 
Re: Brother

Brother som Ole skriver.
Det vil jeg også anbefale, koster ikke ret meget, og arkføderne virker.
Som siger, farverne udskrifterne er ikke for gode, men neddæmp det røde og øg det blå, så er det næsten godt.
Desuden kan man få kompatibel patroner til 25-35 kr, med dobbelt indhold af blæk, og der er ingen chip på patronerne.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 27. jan. 2013 - 20.08
 
Re: Brother

Jeg sad faktisk og kiggede på Brothers ADS2600W, nogen der har erfaring med den ?

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Martin Filtenborgs billede
Martin Filtenborg 28. jan. 2013 - 08.23
 
Re: Brother

+1 til Brother - jeg har en lille model DCP-560CN som er udstyret med ADF. Og ja - forbrugsstoffer hjemkøbes i kvartlitersflasker fra fyldselv.dk, hvilket bringer refill-prisen ned på en flad tier pr. tank.
Medfølgende Windows-scanningssoftware kan fremstille multipage-PDF'er direkte fra ADF'en, men om størrelsen er optimeret aner jeg ikke. Jeg bruger den blot til at maile dokumenter med. Scan-til-dokument-i-mail funktion i een knap er simpelthen genialt; man lægger en lille stak papirer i ADF'en, trykker på knappen, udfylder popup-boxen med mailadresse og trykker 'send'. Wunderschön :)

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Morten Krogh Andersen 28. jan. 2013 - 09.10
 
Re: Brother

også +1 til Brother (og deres linux support) herfra. Jeg har en DCP-9010CN som jeg primært bruger til scanning over netværk vha. gscan2pdf/sane.

Jeg har iøvrigt en DCP-540CN til overs; den kan du (eller andre) få kastet i nakken, hvis den bliver afhentet (nord for Aarhus) ;)

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Martin Filtenborgs billede
Martin Filtenborg 28. jan. 2013 - 09.36
 
Re: Brother - og kommerciel support for linux

Det glemte jeg helt... Ros til Brother for officielt at inkludere Linux i 'det gode selskab'.
Faktisk 'stemte jeg med fødderne' dengang jeg skulle vælge en ny printer, og det blev så Brother der vandt valget :)

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Jesper Lillesø 28. jan. 2013 - 09.59
 
En billig Brother?

Jeg har ikke noget med salget at gøre, men kom lige forbi annoncen:

http://www.dba.dk/multifunktion-laserprinter/id-89067286/

Brother MFC-9840CDW - står tæt på hvor jeg bor - hvis det kan hjælpe :-)

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 28. jan. 2013 - 10.26
 
Direkte papirgang

Takker for diverse tilbud, men baseret på erfaringen med HP'en tror jeg at en direkte papirføring med toside scanning er et ufravigeligt krav.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Jesper Lillesø 28. jan. 2013 - 10.34
 
Fujitsu fi 4340C

Jeg har engang arbejdet med en Fujitsu fi 4340C. Den kører alt igennem uden problemer, og er fantastisk hurtig :-)

Der er dog desværre ikke lige nogle brugte i DK - og afløseren er DYR...

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Sune Beermann 28. jan. 2013 - 12.42
 
Re: OCR

Hej Maciej Szeliga. Jeg har længe været på jagt efter en HP 9100C. Så hvis du har nogen stykker kunne jeg godt være aftager af en?

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 28. jan. 2013 - 13.07
 
Re: Fujitsu fi 4340C

Fujitsu fi 4340C.

Fujitsu har nogle utroligt gode scannere, men de fleste er langt udenfor vores budget (fi5950 til $20k anyone ?)

Til gengæld kan man køre en tortilla igennem den i fuld hastighed...

  • Stem op 2
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Jesper Lillesø 28. jan. 2013 - 13.27
 
Re: Fujitsu fi 4340C

:-)

Ovenstående gamle sag kan jeg se er til salg på EBay i Tyskland til £269:

ebay

  • Stem op 1
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Keld Simonsen 28. jan. 2013 - 14.14
 
brug en kopimaskine

De fleste nyere større kopimaskiner kan skanne, på begge sider, og så sende pdf-filen til en email. Nogen steder kan man med lidt smesken få lov til at bruge deres kopimaskine uden beregning, eller måske for en æske chokolade. Det koster jo "ikke noget" at skanne ind, hverken papir eller farvetoner.

Så kan man lægge det ud på nettet og lade Google komme forbi, og så laver Google en rimelig OCR.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Poul Pedersen 28. jan. 2013 - 14.32
 
Fuji budgetmodel

Vi bruger sådan en hyggelig lille model når man ikke gider gå ud til kopimaskinens scanner: http://www.fujitsu.com/emea/products/scanners/discontinued/tmpl_scanners...

Den kan findes semi-cheap på ebay, dog er inputtray på 25 ark ikke voldsomt stor.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Theodor Norup 28. jan. 2013 - 19.45
 
g2scan2pdf og tesseract

Jeg har brugt http://gscan2pdf.sourceforge.net/ kombineret med Brother MFC-7700. Virker perfekt. Gscan2pdf understøtter alle SANE-understøttede scannere (hvilket er langt de fleste) og giver mulighed for at reorganisere de enkelte sider efter scanning (fx. vende landscape sider rigtigt, etc.), scanne et dokument i flere batches, mv.. Funker også med arkføder, men jeg har ikke haft mulighed for at prøve dobbeltsidet scanning, men med muligheden for at reorganisere siderne kan man om nødvendigt klare ved batchvis først scanne forside og derefter bagside... Måske kan reorganiseringen klares med lidt pdftk-hackning.

I et projekt har jeg for et par år siden OCR'et 100k+ tiff-billeder af dokumenter med tesseract, som er nævnt ovenfor. Tegngenkendelsen ved almindelig brødtekst er meget tilfredsstillende, selv ved uskarpe billeder.

Man skal have en af de seneste versioner fra code.google.com for at få danske tegn understøttet. For den uerfarne er der et par timers frustrerende slagsmål med autoconf inden oversættelse og linkning funker :-( Tesseract er single-threaded, så hvis man skal behandle rigtig mange sider er man nødt til at parallelisere ocr'ningen. Regn med cirka 2 sekunder pr. A4-side på en rigtig hurtig CPU.

Jeg har ikke prøvet kombinationen af gscan2pdf og tesseract.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Maciej Szeliga 28. jan. 2013 - 20.20
 
Re: OCR

Hej Maciej Szeliga. Jeg har længe været på jagt efter en HP 9100C. Så hvis du har nogen stykker kunne jeg godt være aftager af en?


Hej Sune, mine kollegaer har vist sig ekstremt effektive med oprydningen så de er desværre blevet kørt til skrot, jeg var ellers sikker på at de fortsat stod på lagret.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Sune Beermann 29. jan. 2013 - 10.26
 
Re: OCR

Det er bare helt fint. Tak for kigget.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Lektor: Problematisk at sælge NemID til udlandet

Udgivet 19. jun 16.12Opdateret 19. jun 16.12

Samsung på vej med lynhurtig mini-SSD med PCIe-forbindelse

Udgivet 19. jun 15.31Opdateret 19. jun 15.31

Amazon bygger privat sky til CIA for 3,3 milliarder kroner

Udgivet 19. jun 14.47Opdateret 19. jun 14.47

Trine Bramsen: Handicapfilm er skræmmekampagne

Udgivet 19. jun 14.02Opdateret 19. jun 14.02

Microsoft kaster Surface RT i grams til studerende for 1.100 kroner

Udgivet 19. jun 13.08Opdateret 19. jun 14.39

Flere it-nyheder »

Tilmeld dig Version2's it-nyhedsbrev og vind en iPad mini.

Seneste debat

  1. NemID- og Dankort-firmaet Nets sættes til salg for milliardbeløb

    28 comments.
    Last update 9 minutter 54 sekunder
    Skrevet af Lars Skovlund
  2. Lektor: Problematisk at sælge NemID til udlandet

    1 comment.
    Last update 17 minutter 54 sekunder
    Skrevet af Lars Skovlund
  3. Softwarepatent-modstander: Gør dine venner og familie klar til folkeafstemning

    17 comments.
    Last update 34 minutter 52 sekunder
    Skrevet af Niels Didriksen
  4. Umuligt at spærre for: Her er afløseren for tracking med cookies

    7 comments.
    Last update 44 minutter 9 sekunder
    Skrevet af Peter Hansen
  5. NSA bagdøre i Open Source ?

    80 comments.
    Last update 57 minutter 32 sekunder
    Skrevet af Jan Poulsen
  6. Udviklere finder hul i DSB 1: Kommer gratis på nettet

    18 comments.
    Last update 1 time 14 minutter
    Skrevet af Søren Mors
  7. Amazon bygger privat sky til CIA for 3,3 milliarder kroner

    1 comment.
    Last update 1 time 21 minutter
    Skrevet af Lars K. Hansen
  8. Mogens Nørgaard fyret fra Miracle

    19 comments.
    Last update 1 time 22 minutter
    Skrevet af Mogens Nørgaard

Mere debat »

It-virksomheder

Epista IT
|
Viggonet
|
Futurecom Business Solutions
|
Abusiness
|
Rehfeld
|
Strongminds At Work
|
Tiger Media
|
Bownty ApS
|
4C Management Consulting
|
Codecompany.DK
|
Fleron Solutions
|
HardwareHippo
 

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Cookie- & privatlivspolitik

Aktuelle emner

  • Business Intelligence
  • CSC-hacking
  • Cloud computing
  • Intranet
  • It-sikkerhed
  • NSA Prism
  • NemID
  • Open source CMS
  • Projektledelse
  • Scrum
  • Storage
  • Virtualisering
  • Windows 8
  • iOS 7

Tjenester

  • iPhone-app
  • RSS-feeds
Følg @version2dk
Tilmeld dig Version2's it-nyhedsbrev og vind en iPad mini.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Trekronergade 26 2500 Valby
  • Tlf. work 33265300