DIGINEFF - webový deník
o digitální fotografii //

Řídí Ondřej Neff
garant IDIFu
sekce domácí
digitální fotografie
   Hlavní stránka    //
recenze    //
slovníček pojmů    //
fotografujeme    //
otázky čtenářů    //

editujeme obrázky
čtenářská galerie   //
ceníky prodejců    //
srovnávací tabulky
technických údajů
//
čtenářské fórum

Dotazy a připomínky adresujte sem


Jak na OCR
SHRNUTÍ:
Digitálního aparátu lze použít pro pořizování předloh pro OCR.
   

25.4.2003
OCR neboli Optical Character Recognition je oblíbená metoda přenosu textu z tištěné předlohy do podoby datového souboru. Typicky se k tomu používá skeneru, jak je to znázorněno na obrázku. Ten jsem převzal z webu firmy ABBYY - jde o ruskou firmu, výrobce OCR programu FineReader, nejlepšího softu v této oblasti, jaký jsem měl možnost poznat. V typické konfiguraci FineReader (nebo jiný OCR program) spolupracuje se skenerem. Text vložíme do skeneru, skenujeme, vznikne obrázek, ten se načte do FineReaderu (nebo jiného OCR programu) a pak probíhá rozpoznávání, eventuálně korektura a nakonec uložíme data do zvoleného souboru - do textového TXT souboru, do wordovského DOC dokumentu nebo jinak. Možnosti jsou až neuvěřitelné - je to skutečně skvělý program.
OCR program v každém případě rozpoznává text z obrázku, logicky tedy lze obrázek získat i pomocí digitálního aparátu.
Ukázka Fine Readeru v procesu načítání. Zpracovaný text je označen bleděmodře. Klikněte a uvidíte snímek větší v novém okně.
Předloha pro OCR musí být jasná, ostrá, kontrastní. Proto se těžko sdělí návod "digitálním aparátem se to dělá tak a tak", každý má jiné vlastnosti a je nutno si věc vyzkoušet. Zde popisované experimenty jsem prováděl s právě testovaným přístrojem Olympus C-740 UZ. Postup je stejný jako při jakékoli jiné reprodukci. Text musí být zcela rovný a kolmý na optickou osu, musí být rovnoměrně osvětlený. Je vcelku jedno, zdali ho snímáte v režimu barevného nebo černobílého snímání. Je dobře přidat na expozici cca +0,7, zvýšil jsem i kontrast a doostření. Přepnutí do interpolovaného režimu (místo 3 Mpx jsou 6 Mpx obrázky) poněkud věci prospělo, lze tedy doporučit.
OCR program obvykle vyžaduje, aby obrázky textu měly rozlišení aspoň 300 dpi. V článku o dpi jsem se pokusil vysvětlit některé zdánlivé záhady s dpi spojené. Ve fotografické praxi nemusíme zpravidla na dpi myslet. Ovšem v praxi OCR bývá dpi 300 základní požadavek. Vtip ale je v tom, že snímek pořízený digitálním aparátem má vždy 72 dpi. Zde by mohl být zdroj potíží. Při mých pokusech si Fine Reader kupodivu nechal 72 dpi líbit, může se ale stát, že vám hodí hlášku, že má zdrojový obrázek (tedy snímek textu) malé rozlišení.
Bližší pohled do Fine Readeru. Text je dobře ručně rozčlenit na bloky,které jdou po sobě - jinak si program udělá bloky sám. Červené označují obrázky, zelené rámečky texty. Klikněte a uvidíte snímek větší v novém okně.
To lze napravit jen v takovém editoru, který dokáže změnit hodnotu dpi, jako je na př. Photoshop.
Zde je třeba postupovat obezřetně.
Jde o editaci, proto editujte kopii. Ve volbě Velikost obrazu vypněte volbu Převzorkovat obraz - horní část dialogové=ho okna se vypne. V okénku Rozlišení přepište původních 72 na 300. Změní se původní údaj 2048x1536 bodů na 491x368 bodů - toho si nevšímejte, důležité je, že snímek má 300 dpi. Nyní zopakujte pokus s rozpoznáním. Kdyby soft i tentokrát vykázal příliš mnoho chyb, jděte zase do volby Velikost obrazu, tentokrát zapněte volbu Převzorkovat obraz, a šířku 491,5 nastavte dejme tomu na 600. V horní části dialogového okna se změní situace - bude tam 2500x1875: tentokrát skutečně fyzicky zvětšujeme obrázek. Po zvětšení je dobře doladit jas a kontrast, eventuálně doostřit a teď už by to mělo fungovat.

Zkušenost s C-740 UZ je velmi dobrá. Dařilo se snímat a přes OCR rozpoznat texty v časopisu A4, trojsloupečné články z novin bez úpravy dpi, jakmile šlo o novinovou půlstranu, nastaly mírné potíže, ale text rozpoznatelný byl. Zde musím dodat, že OCR zřídka funguje absolutně bez chyby, plete si litery "l" a "í" a pod., takže vždycky je nutné po OCR procesu text zkorigovat. Nicméně je nepochybné, že touto metodou lze velmi rychle pořizovat archiv - a doplňovat ho i v terénu, kde nemáme skener k disposici. Skenování je samozřejmě kvalitnější, ale zdlouhavější proces. Instalace OCR programu je ovšem nutným předpokladem, přičemž Fine Reader mi připadá jako optimální a doporučení hodný program.

(eff)

 
Aktuální workshopy IDIFu:
6.9.2010 Začínáme fotografovat s DSLR (Praha)
7.9.2010 Seznamte se se svou DSLR Olympus (Praha)
7.9.2010 Zoner Photo Studio 12: základy ovládání programu (Praha)
7.9.2010 Makrofotografie I (Brno - Ateliér)
8.9.2010 Hra se světlem aneb práce v ateliéru (Praha)
8.9.2010 Portrétní fotografie v přirozeném prostředí (Brno - Ateliér)
9.9.2010 Sportovní workshop s Danielem Vojtěchem (Praha)
9.9.2010 Dílna P a B (Praha)
14.9.2010 Produktová fotografie: informace, reklama a sebevýraz (Praha)
15.9.2010 Fotografujeme svatby, večírky, módní přehlídky (Praha)
16.9.2010 Objektivy od A do Z (Praha)
17.9.2010 Praktické tipy pro prodej autorských fotografií (Praha)
18.9.2010 Portrét v přirozeném prostředí - Ostrava (Ostrava)
20.9.2010 Taje reportážní fotografie (Praha)
20.9.2010 Adobe Photoshop II: úpravy pro pokročilejší (Brno - PC učebna)

Jak na to:
Blesk a protisvětlo
Causa hledáček
Černé světlo
Černoši v tunelu
Červené oči
Digitální zoom
Displej
Držíme foťák
Efekty
Expozice
Expozice +-
Expozice a displej
Expoziční kompenzace
Filtry
Fleky na fotkách
Fotíme na sněhu
Fotíme pampelišky
Fotíme s displejem
Fotíme s předsádkami
Fotíme texty
Fotíme videokamerou
Fotky na webu 1.
Fotky na webu 2.
Fotíme v mrazu
Foto a zákony
Histogram
Hloubka ostrosti
Chybná expozice
Jak na Hanku
Kontrast a barevnost
Lesky na pleti 1.
Lesky na pleti 2.
Malé žabičky
Makrosnímky
Mlžný opar
Noční fotky
Ohňostroj
Oblaka malují
OCR
O portrétu
Panoramatická fotka
Podexpozice
Podzim
Podzim a saturace
Podzim a expozice
Postava v krajině
Převádíme text na data
Prostor a měřítko
Proti slunci
Při svíčce
Reset
Rychlý pohyb 1
Rychlý pohyb 2
Pětkrát Hanka
Špatné světlo
Samospoušť
Sekvence v praxi
Sekvenční focení, k čemu je?
Se sluncem i bez něho
Střed je tabu
V kleci
Východ slunce
V zrcadle
Zpoždění spouště