| |
|
Jak na OCR
| SHRNUTÍ:
| |
Digitálního aparátu lze použít pro pořizování předloh pro OCR.
|
| |
25.4.2003
OCR neboli Optical Character Recognition je oblíbená metoda přenosu textu z tištěné
předlohy do podoby datového souboru. Typicky se k tomu používá skeneru, jak je to
znázorněno na obrázku. Ten jsem převzal z webu firmy ABBYY - jde o ruskou firmu, výrobce
OCR programu FineReader, nejlepšího softu v této oblasti, jaký jsem měl možnost
poznat. V typické konfiguraci FineReader (nebo jiný OCR program) spolupracuje se skenerem.
Text vložíme do skeneru, skenujeme, vznikne obrázek, ten se načte do FineReaderu (nebo
jiného OCR programu) a pak probíhá rozpoznávání, eventuálně korektura a nakonec uložíme
data do zvoleného souboru - do textového TXT souboru, do wordovského DOC
dokumentu nebo jinak. Možnosti jsou až neuvěřitelné - je to skutečně skvělý program.
OCR program v každém případě rozpoznává text z obrázku, logicky tedy lze obrázek
získat i pomocí digitálního aparátu.
 |
Ukázka Fine Readeru v procesu načítání. Zpracovaný text je označen bleděmodře. Klikněte a uvidíte snímek větší v novém okně.
|
Předloha pro OCR musí být jasná, ostrá, kontrastní. Proto se těžko sdělí návod
"digitálním aparátem se to dělá tak a tak", každý má jiné vlastnosti a je nutno si věc
vyzkoušet. Zde popisované experimenty jsem prováděl s právě testovaným přístrojem Olympus
C-740 UZ. Postup je stejný jako při jakékoli jiné reprodukci. Text musí být zcela rovný a
kolmý na optickou osu, musí být rovnoměrně osvětlený. Je vcelku jedno, zdali ho snímáte v
režimu barevného nebo černobílého snímání. Je dobře přidat na expozici cca +0,7, zvýšil
jsem i kontrast a doostření. Přepnutí do interpolovaného režimu (místo 3 Mpx jsou 6 Mpx
obrázky) poněkud věci prospělo, lze tedy doporučit.
OCR program obvykle vyžaduje, aby obrázky textu měly rozlišení aspoň 300 dpi. V článku
o
dpi jsem se pokusil vysvětlit některé zdánlivé záhady s dpi spojené. Ve fotografické
praxi nemusíme zpravidla na dpi myslet. Ovšem v praxi OCR bývá dpi 300 základní
požadavek. Vtip ale je v tom, že snímek pořízený digitálním aparátem má vždy 72 dpi.
Zde by mohl být zdroj potíží. Při mých pokusech si Fine Reader kupodivu nechal 72 dpi líbit,
může se ale stát, že vám hodí hlášku, že má zdrojový obrázek (tedy snímek textu) malé
rozlišení.
 |
Bližší pohled do Fine Readeru. Text je dobře ručně rozčlenit na bloky,které jdou po sobě - jinak si program udělá bloky sám. Červené označují obrázky, zelené rámečky texty. Klikněte a uvidíte snímek větší v novém okně.
| To lze napravit jen v takovém editoru, který dokáže změnit hodnotu dpi, jako je
na př. Photoshop.
Zde je třeba postupovat obezřetně.
Jde o editaci, proto editujte kopii. Ve volbě Velikost obrazu vypněte
volbu Převzorkovat obraz - horní část dialogové=ho okna se vypne. V okénku Rozlišení
přepište původních 72 na 300. Změní se původní údaj 2048x1536 bodů na 491x368 bodů - toho
si nevšímejte, důležité je, že snímek má 300 dpi. Nyní zopakujte pokus s rozpoznáním. Kdyby
soft i tentokrát vykázal příliš mnoho chyb, jděte zase do volby Velikost obrazu, tentokrát
zapněte volbu Převzorkovat obraz, a šířku 491,5 nastavte dejme tomu na 600. V horní části
dialogového okna se změní situace - bude tam 2500x1875: tentokrát skutečně fyzicky
zvětšujeme obrázek. Po zvětšení je dobře doladit jas a kontrast, eventuálně doostřit a
teď už by to mělo fungovat.
Zkušenost s C-740 UZ je velmi dobrá. Dařilo se snímat a přes OCR rozpoznat texty
v časopisu A4, trojsloupečné články z novin bez úpravy dpi, jakmile šlo o novinovou
půlstranu, nastaly mírné potíže, ale text rozpoznatelný byl. Zde musím dodat, že OCR
zřídka funguje absolutně bez chyby, plete si litery "l" a "í" a pod., takže vždycky
je nutné po OCR procesu text zkorigovat. Nicméně je nepochybné, že touto metodou lze velmi
rychle pořizovat archiv - a doplňovat ho i v terénu, kde nemáme skener k disposici.
Skenování je samozřejmě kvalitnější, ale zdlouhavější proces. Instalace OCR programu je
ovšem nutným předpokladem, přičemž Fine Reader mi připadá jako optimální a doporučení hodný
program.
(eff)
|
|
|
|