Vi har en masse gamle manualer ude i datamuseum.dk som vi gerne vil have digitaliseret.
Dertil har vi arvet en HP5590 (eller noget i den stil) scanner med arkføder osv.
Den kommer med noget skodsoftware fra HP der kører på en Windows Vista maskine, som kan producere nogle PDF filer med noget OCR undervejs.
At sige det virker "godt" ville være at overdrive.
Brugerinterfacet stinker. Selv noget så basalt som "side 37 af 104" mangler.
Ca. hver 8. side vælger den at dreje 90 grader. Bare sådan for at vise at den kan.
Og nu har jeg lige opdaget at output filerne er 10 gange større end nødvendigt: Den gemmer 300bpi sort-hvid som JPG format i PDF filerne.
Nu har jeg skrevet et python script der åbner PDF filen, henter JPG billederne ud, konverterer dem til monokrom, komprimeret TIFF, bruger tiffcp til at lave en pdf-fil og spytter en ny PDF fil ud, med OCR data fra den første og TIFF fra den anden fil.
Men det er jo, mildst talt, ikke nogen perfekt løsning.
Nogen bedre forslag ?
Findes der stadig slet ikke noget OCR der virker på en FOSS løsning ?
phk
- emailE-mail
- linkKopier link

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.
Fortsæt din læsning
- Sortér efter chevron_right
- Trådet debat
Jeg har brugt http://gscan2pdf.sourceforge.net/ kombineret med Brother MFC-7700. Virker perfekt. Gscan2pdf understøtter alle SANE-understøttede scannere (hvilket er langt de fleste) og giver mulighed for at reorganisere de enkelte sider efter scanning (fx. vende landscape sider rigtigt, etc.), scanne et dokument i flere batches, mv.. Funker også med arkføder, men jeg har ikke haft mulighed for at prøve dobbeltsidet scanning, men med muligheden for at reorganisere siderne kan man om nødvendigt klare ved batchvis først scanne forside og derefter bagside... Måske kan reorganiseringen klares med lidt pdftk-hackning.
I et projekt har jeg for et par år siden OCR'et 100k+ tiff-billeder af dokumenter med tesseract, som er nævnt ovenfor. Tegngenkendelsen ved almindelig brødtekst er meget tilfredsstillende, selv ved uskarpe billeder.
Man skal have en af de seneste versioner fra code.google.com for at få danske tegn understøttet. For den uerfarne er der et par timers frustrerende slagsmål med autoconf inden oversættelse og linkning funker :-( Tesseract er single-threaded, så hvis man skal behandle rigtig mange sider er man nødt til at parallelisere ocr'ningen. Regn med cirka 2 sekunder pr. A4-side på en rigtig hurtig CPU.
Jeg har ikke prøvet kombinationen af gscan2pdf og tesseract.
- more_vert
- insert_linkKopier link
Vi bruger sådan en hyggelig lille model når man ikke gider gå ud til kopimaskinens scanner: http://www.fujitsu.com/emea/products/scanners/discontinued/tmpl_scanners_fi-5120c.html
Den kan findes semi-cheap på ebay, dog er inputtray på 25 ark ikke voldsomt stor.
- more_vert
- insert_linkKopier link
De fleste nyere større kopimaskiner kan skanne, på begge sider, og så sende pdf-filen til en email. Nogen steder kan man med lidt smesken få lov til at bruge deres kopimaskine uden beregning, eller måske for en æske chokolade. Det koster jo "ikke noget" at skanne ind, hverken papir eller farvetoner.
Så kan man lægge det ud på nettet og lade Google komme forbi, og så laver Google en rimelig OCR.
- more_vert
- insert_linkKopier link
Jeg har engang arbejdet med en Fujitsu fi 4340C. Den kører alt igennem uden problemer, og er fantastisk hurtig :-)
Der er dog desværre ikke lige nogle brugte i DK - og afløseren er DYR...
- more_vert
- insert_linkKopier link
Fujitsu fi 4340C.
Fujitsu har nogle utroligt gode scannere, men de fleste er langt udenfor vores budget (fi5950 til $20k anyone ?)
Til gengæld kan man køre en tortilla igennem den i fuld hastighed...
- more_vert
- insert_linkKopier link
Takker for diverse tilbud, men baseret på erfaringen med HP'en tror jeg at en direkte papirføring med toside scanning er et ufravigeligt krav.
- more_vert
- insert_linkKopier link
Jeg har ikke noget med salget at gøre, men kom lige forbi annoncen:
http://www.dba.dk/multifunktion-laserprinter/id-89067286/
Brother MFC-9840CDW - står tæt på hvor jeg bor - hvis det kan hjælpe :-)
- more_vert
- insert_linkKopier link
også +1 til Brother (og deres linux support) herfra. Jeg har en DCP-9010CN som jeg primært bruger til scanning over netværk vha. gscan2pdf/sane.
Jeg har iøvrigt en DCP-540CN til overs; den kan du (eller andre) få kastet i nakken, hvis den bliver afhentet (nord for Aarhus) ;)
- more_vert
- insert_linkKopier link
Det glemte jeg helt... Ros til Brother for officielt at inkludere Linux i 'det gode selskab'. Faktisk 'stemte jeg med fødderne' dengang jeg skulle vælge en ny printer, og det blev så Brother der vandt valget :)
- more_vert
- insert_linkKopier link
Kig på brothers multifunktionsmaskiner. Vi har både en MFC-8860DN (s/h) og en MFC-9840CDW (farve). Udskriftskvaliteten i farve lader noget tilbage at ønske - vores stenalder HP leverer et markant bedre resultat. Til gengæld virker arkføderesn (ADF) til indscanning fortræffeligt og begge kan klare duplex. Arkene bliver trukket lige ind og ét ad gangen :) Man kan definere forskellige profiler (f.eks 200dpi b/w) og der kan sendes til email eller ftp.
- more_vert
- insert_linkKopier link
Brother som Ole skriver. Det vil jeg også anbefale, koster ikke ret meget, og arkføderne virker. Som siger, farverne udskrifterne er ikke for gode, men neddæmp det røde og øg det blå, så er det næsten godt. Desuden kan man få kompatibel patroner til 25-35 kr, med dobbelt indhold af blæk, og der er ingen chip på patronerne.
- more_vert
- insert_linkKopier link
+1 til Brother - jeg har en lille model DCP-560CN som er udstyret med ADF. Og ja - forbrugsstoffer hjemkøbes i kvartlitersflasker fra fyldselv.dk, hvilket bringer refill-prisen ned på en flad tier pr. tank. Medfølgende Windows-scanningssoftware kan fremstille multipage-PDF'er direkte fra ADF'en, men om størrelsen er optimeret aner jeg ikke. Jeg bruger den blot til at maile dokumenter med. Scan-til-dokument-i-mail funktion i een knap er simpelthen genialt; man lægger en lille stak papirer i ADF'en, trykker på knappen, udfylder popup-boxen med mailadresse og trykker 'send'. Wunderschön :)
- more_vert
- insert_linkKopier link
Jeg sad faktisk og kiggede på Brothers ADS2600W, nogen der har erfaring med den ?
- more_vert
- insert_linkKopier link
... men jeg kan godt lide den her DIY-bogscanner fra Google:http://code.google.com/p/linear-book-scanner/
De siger kun noget om selve scannings-processen, ikke om OCR af det scannede.
- more_vert
- insert_linkKopier link
Jeg bruger selv dette produkt til både min flatbed scanner og til filmscanner. Det supporter næsten alt, som kan scanne. Det er ikke gratis, men man kan downloade en prøveversion for at se, om det kan bruges til opgaven. HP5590 er supportet på Windows og Mac, men læs evt. selv på http://www.hamrick.com
- more_vert
- insert_linkKopier link
Brug lidt småpenge på ABBYY FineReader 11 og en husholdningsscanner fra den lokale biks. Så har du scannet de første 5 bøger samme dag - uden ærgelser om dårlige scannerdrivere m.v. Indrømmet, det er ikke open source, eller til Linux eller noget som helst. Men det virker!
- more_vert
- insert_linkKopier link
Det er en "husholdningsscanner" vi har, men en model med arkføder.
Det er helt udelukket at skifte til noget hvor vi manuelt skal flytte hvert ark.
Hvis noget, ville jeg hellere opgradere til en "straight-thru" scanner der kan tage begge sider i et hug...
- more_vert
- insert_linkKopier link
Jeg har muligvis et par HP 9100C "Digital Sender" stående, jeg checker på mandag... hvis jeg fortsat har dem så vil jeg gerne donere dem (de er blevet overflødiggjort af MFP'ere). Det er en netværksscanner som kan sende til smb share eller med SMTP og har kapacitet i feederen til 50 ark, den scanner desværre kun på en side af arket. Jeg mener der er noget automatik så man bare "vender stakken" og så kan scanne anden side.
- more_vert
- insert_linkKopier link
Hej Maciej Szeliga. Jeg har længe været på jagt efter en HP 9100C. Så hvis du har nogen stykker kunne jeg godt være aftager af en?
- more_vert
- insert_linkKopier link
Hej Sune, mine kollegaer har vist sig ekstremt effektive med oprydningen så de er desværre blevet kørt til skrot, jeg var ellers sikker på at de fortsat stod på lagret.Hej Maciej Szeliga. Jeg har længe været på jagt efter en HP 9100C. Så hvis du har nogen stykker kunne jeg godt være aftager af en?
- more_vert
- insert_linkKopier link
PJ fra Groklaw nævnte noget om noget som hedder Tesseract, de skulle digitalisere en masse dokumenter fra SCO sagen.
- more_vert
- insert_linkKopier link
Hvis scanneren er bare lidt standard burde der vel findes scanner software til den?
Dette software kan måske producere PDF's eller en række TIFF billeder, som ud så kan køre Tesseract på (OSS-OCR)
http://code.google.com/p/tesseract-ocr/http://ubuntuforums.org/showthread.php?t=880471
Jeg har selv brugt metoden ad nogle omgange, og har fundet at det virker nogenlunde... Men I kan jo prøve ;)
- more_vert
- insert_linkKopier link