Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Whitepapers
  • Opret bruger
  • Log ind
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?
Se kommentarer (24)
Emner Elektronisk sags- og dokumenthåndtering (ESDH)

Dokument scanning

Af Poul-Henning Kamp 26. januar 2013 kl. 14:48

Vi har en masse gamle manualer ude i datamuseum.dk som vi gerne vil have digitaliseret.

Dertil har vi arvet en HP5590 (eller noget i den stil) scanner med arkføder osv.

Den kommer med noget skodsoftware fra HP der kører på en Windows Vista maskine, som kan producere nogle PDF filer med noget OCR undervejs.

At sige det virker "godt" ville være at overdrive.

Brugerinterfacet stinker. Selv noget så basalt som "side 37 af 104" mangler.

Ca. hver 8. side vælger den at dreje 90 grader. Bare sådan for at vise at den kan.

Og nu har jeg lige opdaget at output filerne er 10 gange større end nødvendigt: Den gemmer 300bpi sort-hvid som JPG format i PDF filerne.

Nu har jeg skrevet et python script der åbner PDF filen, henter JPG billederne ud, konverterer dem til monokrom, komprimeret TIFF, bruger tiffcp til at lave en pdf-fil og spytter en ny PDF fil ud, med OCR data fra den første og TIFF fra den anden fil.

Men det er jo, mildst talt, ikke nogen perfekt løsning.

Nogen bedre forslag ?

Findes der stadig slet ikke noget OCR der virker på en FOSS løsning ?

phk

Send Tweet
Udskriv
Billede af Poul-Henning KampOm Poul-Henning Kamp

Poul-Henning er selvstændig systemprogrammør, kernekoder, Varnish-forfatter, data-arkæolog og brokkehoved uden særlig portefølje.

Follow @bsdphk

Kommentarer (24)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Michael Bisbjerg 26. jan. 2013 - 16.05
 
Tesseract

Hvis scanneren er bare lidt standard burde der vel findes scanner software til den?

Dette software kan måske producere PDF's eller en række TIFF billeder, som ud så kan køre Tesseract på (OSS-OCR)

http://code.google.com/p/tesseract-ocr/
http://ubuntuforums.org/showthread.php?t=880471

Jeg har selv brugt metoden ad nogle omgange, og har fundet at det virker nogenlunde... Men I kan jo prøve ;)

  • Stem op 1
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Maciej Szeliga 26. jan. 2013 - 16.10
 
Findes der stadig slet ikke noget OCR...

PJ fra Groklaw nævnte noget om noget som hedder Tesseract, de skulle digitalisere en masse dokumenter fra SCO sagen.

http://sourceforge.net/projects/tesseract-ocr/

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Lars Meldgård 26. jan. 2013 - 16.43
 
OCR

Brug lidt småpenge på ABBYY FineReader 11 og en husholdningsscanner fra den lokale biks. Så har du scannet de første 5 bøger samme dag - uden ærgelser om dårlige scannerdrivere m.v.
Indrømmet, det er ikke open source, eller til Linux eller noget som helst. Men det virker!

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Erik P. Olsen 26. jan. 2013 - 16.55
 
VueScan

Jeg bruger selv dette produkt til både min flatbed scanner og til filmscanner. Det supporter næsten alt, som kan scanne. Det er ikke gratis, men man kan downloade en prøveversion for at se, om det kan bruges til opgaven. HP5590 er supportet på Windows og Mac, men læs evt. selv på http://www.hamrick.com

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 26. jan. 2013 - 17.01
 
Re: OCR

Det er en "husholdningsscanner" vi har, men en model med arkføder.

Det er helt udelukket at skifte til noget hvor vi manuelt skal flytte hvert ark.

Hvis noget, ville jeg hellere opgradere til en "straight-thru" scanner der kan tage begge sider i et hug...

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Maciej Szeliga 26. jan. 2013 - 17.41
 
Re: OCR

Jeg har muligvis et par HP 9100C "Digital Sender" stående, jeg checker på mandag... hvis jeg fortsat har dem så vil jeg gerne donere dem (de er blevet overflødiggjort af MFP'ere).
Det er en netværksscanner som kan sende til smb share eller med SMTP og har kapacitet i feederen til 50 ark, den scanner desværre kun på en side af arket. Jeg mener der er noget automatik så man bare "vender stakken" og så kan scanne anden side.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Bjarke Walling 26. jan. 2013 - 23.15
 
Måske ikke relevant ...

... men jeg kan godt lide den her DIY-bogscanner fra Google:
http://code.google.com/p/linear-book-scanner/

De siger kun noget om selve scannings-processen, ikke om OCR af det scannede.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Ole Kaas 27. jan. 2013 - 17.35
 
Brother

Kig på brothers multifunktionsmaskiner. Vi har både en MFC-8860DN (s/h) og en MFC-9840CDW (farve). Udskriftskvaliteten i farve lader noget tilbage at ønske - vores stenalder HP leverer et markant bedre resultat. Til gengæld virker arkføderesn (ADF) til indscanning fortræffeligt og begge kan klare duplex. Arkene bliver trukket lige ind og ét ad gangen :) Man kan definere forskellige profiler (f.eks 200dpi b/w) og der kan sendes til email eller ftp.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Søren Mejlhede 27. jan. 2013 - 18.53
 
Re: Brother

Brother som Ole skriver.
Det vil jeg også anbefale, koster ikke ret meget, og arkføderne virker.
Som siger, farverne udskrifterne er ikke for gode, men neddæmp det røde og øg det blå, så er det næsten godt.
Desuden kan man få kompatibel patroner til 25-35 kr, med dobbelt indhold af blæk, og der er ingen chip på patronerne.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 27. jan. 2013 - 20.08
 
Re: Brother

Jeg sad faktisk og kiggede på Brothers ADS2600W, nogen der har erfaring med den ?

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Martin Filtenborgs billede
Martin Filtenborg 28. jan. 2013 - 08.23
 
Re: Brother

+1 til Brother - jeg har en lille model DCP-560CN som er udstyret med ADF. Og ja - forbrugsstoffer hjemkøbes i kvartlitersflasker fra fyldselv.dk, hvilket bringer refill-prisen ned på en flad tier pr. tank.
Medfølgende Windows-scanningssoftware kan fremstille multipage-PDF'er direkte fra ADF'en, men om størrelsen er optimeret aner jeg ikke. Jeg bruger den blot til at maile dokumenter med. Scan-til-dokument-i-mail funktion i een knap er simpelthen genialt; man lægger en lille stak papirer i ADF'en, trykker på knappen, udfylder popup-boxen med mailadresse og trykker 'send'. Wunderschön :)

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Morten Krogh Andersen 28. jan. 2013 - 09.10
 
Re: Brother

også +1 til Brother (og deres linux support) herfra. Jeg har en DCP-9010CN som jeg primært bruger til scanning over netværk vha. gscan2pdf/sane.

Jeg har iøvrigt en DCP-540CN til overs; den kan du (eller andre) få kastet i nakken, hvis den bliver afhentet (nord for Aarhus) ;)

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Martin Filtenborgs billede
Martin Filtenborg 28. jan. 2013 - 09.36
 
Re: Brother - og kommerciel support for linux

Det glemte jeg helt... Ros til Brother for officielt at inkludere Linux i 'det gode selskab'.
Faktisk 'stemte jeg med fødderne' dengang jeg skulle vælge en ny printer, og det blev så Brother der vandt valget :)

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Jesper Lillesø 28. jan. 2013 - 09.59
 
En billig Brother?

Jeg har ikke noget med salget at gøre, men kom lige forbi annoncen:

http://www.dba.dk/multifunktion-laserprinter/id-89067286/

Brother MFC-9840CDW - står tæt på hvor jeg bor - hvis det kan hjælpe :-)

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 28. jan. 2013 - 10.26
 
Direkte papirgang

Takker for diverse tilbud, men baseret på erfaringen med HP'en tror jeg at en direkte papirføring med toside scanning er et ufravigeligt krav.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Jesper Lillesø 28. jan. 2013 - 10.34
 
Fujitsu fi 4340C

Jeg har engang arbejdet med en Fujitsu fi 4340C. Den kører alt igennem uden problemer, og er fantastisk hurtig :-)

Der er dog desværre ikke lige nogle brugte i DK - og afløseren er DYR...

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Sune Beermann 28. jan. 2013 - 12.42
 
Re: OCR

Hej Maciej Szeliga. Jeg har længe været på jagt efter en HP 9100C. Så hvis du har nogen stykker kunne jeg godt være aftager af en?

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Poul-Henning Kamps billede
Poul-Henning Kamp 28. jan. 2013 - 13.07
 
Re: Fujitsu fi 4340C

Fujitsu fi 4340C.

Fujitsu har nogle utroligt gode scannere, men de fleste er langt udenfor vores budget (fi5950 til $20k anyone ?)

Til gengæld kan man køre en tortilla igennem den i fuld hastighed...

  • Stem op 2
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Jesper Lillesø 28. jan. 2013 - 13.27
 
Re: Fujitsu fi 4340C

:-)

Ovenstående gamle sag kan jeg se er til salg på EBay i Tyskland til £269:

ebay

  • Stem op 1
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Keld Simonsen 28. jan. 2013 - 14.14
 
brug en kopimaskine

De fleste nyere større kopimaskiner kan skanne, på begge sider, og så sende pdf-filen til en email. Nogen steder kan man med lidt smesken få lov til at bruge deres kopimaskine uden beregning, eller måske for en æske chokolade. Det koster jo "ikke noget" at skanne ind, hverken papir eller farvetoner.

Så kan man lægge det ud på nettet og lade Google komme forbi, og så laver Google en rimelig OCR.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Poul Pedersen 28. jan. 2013 - 14.32
 
Fuji budgetmodel

Vi bruger sådan en hyggelig lille model når man ikke gider gå ud til kopimaskinens scanner: http://www.fujitsu.com/emea/products/scanners/discontinued/tmpl_scanners...

Den kan findes semi-cheap på ebay, dog er inputtray på 25 ark ikke voldsomt stor.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Theodor Norup 28. jan. 2013 - 19.45
 
g2scan2pdf og tesseract

Jeg har brugt http://gscan2pdf.sourceforge.net/ kombineret med Brother MFC-7700. Virker perfekt. Gscan2pdf understøtter alle SANE-understøttede scannere (hvilket er langt de fleste) og giver mulighed for at reorganisere de enkelte sider efter scanning (fx. vende landscape sider rigtigt, etc.), scanne et dokument i flere batches, mv.. Funker også med arkføder, men jeg har ikke haft mulighed for at prøve dobbeltsidet scanning, men med muligheden for at reorganisere siderne kan man om nødvendigt klare ved batchvis først scanne forside og derefter bagside... Måske kan reorganiseringen klares med lidt pdftk-hackning.

I et projekt har jeg for et par år siden OCR'et 100k+ tiff-billeder af dokumenter med tesseract, som er nævnt ovenfor. Tegngenkendelsen ved almindelig brødtekst er meget tilfredsstillende, selv ved uskarpe billeder.

Man skal have en af de seneste versioner fra code.google.com for at få danske tegn understøttet. For den uerfarne er der et par timers frustrerende slagsmål med autoconf inden oversættelse og linkning funker :-( Tesseract er single-threaded, så hvis man skal behandle rigtig mange sider er man nødt til at parallelisere ocr'ningen. Regn med cirka 2 sekunder pr. A4-side på en rigtig hurtig CPU.

Jeg har ikke prøvet kombinationen af gscan2pdf og tesseract.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Maciej Szeliga 28. jan. 2013 - 20.20
 
Re: OCR

Hej Maciej Szeliga. Jeg har længe været på jagt efter en HP 9100C. Så hvis du har nogen stykker kunne jeg godt være aftager af en?


Hej Sune, mine kollegaer har vist sig ekstremt effektive med oprydningen så de er desværre blevet kørt til skrot, jeg var ellers sikker på at de fortsat stod på lagret.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Sune Beermann 29. jan. 2013 - 10.26
 
Re: OCR

Det er bare helt fint. Tak for kigget.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Ethernet fylder 40: Fra datacenter til F16-fly

Udgivet 24. maj 15.55Opdateret 24. maj 15.55

Rygte: 48 millioner Xbox Live-konti hacket

Udgivet 24. maj 14.40Opdateret 24. maj 14.40

Shopamok: 41 domæner fra konkursbo sat til salg for 500 kroner

Udgivet 24. maj 14.08Opdateret 24. maj 14.08

300.000 cloud-servere giver ny Xbox supermuskler

Udgivet 24. maj 11.31Opdateret 24. maj 11.31

Yousee: Vi ville ikke skræmme kunderne

Udgivet 24. maj 10.44Opdateret 24. maj 11.32

Flere it-nyheder »

Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Seneste debat

  1. Shopamok: 41 domæner fra konkursbo sat til salg for 500 kroner

    11 comments.
    Last update 2 timer 32 minutter
    Skrevet af Jonas Finnemann Jensen
  2. 300.000 cloud-servere giver ny Xbox supermuskler

    7 comments.
    Last update 3 timer 19 minutter
    Skrevet af Sune Foldager
  3. Ethernet fylder 40: Fra datacenter til F16-fly

    2 comments.
    Last update 6 timer 32 minutter
    Skrevet af Baldur Norddahl
  4. Chefredaktør om hullet betalingsmur: »Vi er fuldstændigt klar over, at det kan omgås«

    16 comments.
    Last update 7 timer 1 minut
    Skrevet af Pelle Söderling
  5. Nokia Lumia-telefon med 41 megapixel-kamera kommer til juli

    11 comments.
    Last update 7 timer 47 minutter
    Skrevet af Søren Mejlhede
  6. TDC: Manglende udbredelse af telemedicin skyldes dårligt økonomisk incitament for hospitalerne

    21 comments.
    Last update 9 timer 21 minutter
    Skrevet af Finn Christensen
  7. Enhedslisten har misforstået softwarepatenter i EU

    13 comments.
    Last update 9 timer 45 minutter
    Skrevet af Finn Christensen
  8. Danske cyberspioner vil hjælpe med ny NemID-løsning - men afviser bagdør

    15 comments.
    Last update 10 timer 11 minutter
    Skrevet af Finn Christensen

Mere debat »

It-virksomheder

Epista IT
|
Mobile Advisor
|
Inmobile
|
Atos IT Solutions And Services
|
Biwise
|
Codecompany.DK
|
Innologic A/S
|
Netcompany
|
Devteam Danmark
|
Reload!
|
Olsens IT
|
Delegate
 

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Cookie- & privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Business Intelligence
  • Cloud computing
  • Intranet
  • It-sikkerhed
  • NemID
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu
  • Virtualisering
  • Windows 8
  • Windows Server 2012
  • iOS 6
  • iPhone 5

Tjenester

  • iPhone-app
  • RSS-feeds
Følg @version2dk
Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Trekronergade 26 2500 Valby
  • Tlf. work 33265300