透かしの入ったページをきれいにOCRする方法
面白いことを発見した。
支給原稿が紙(又は画像PDF)のとき、たまに透かしや背景画像にぶつかるが
背景画像がOCRに拾われてしまうと該当箇所の文字が読み取れない。
そういうページに限って文字数が多かったりすると捨てるのも忍びない。
読み取りを諦める前に。
ひと手間でかなり救われる場合があるのでメモ。
該当ページの画像ペイントで開き、背景を薄い灰色で塗る。以上。
これだけでモノクロ画像がかなりぼやけるので、
OCRが透かしをただのノイズとして読み捨ててくれるようになる。
今のところ成功率90%。
ほぼ完全に読み取りたい文字が目視できている(テキストにもできている)。
カテゴリ
TIPSトラックバック(0)
このブログ記事を参照しているブログ一覧: 透かしの入ったページをきれいにOCRする方法
このブログ記事に対するトラックバックURL: http://mogya.com/mt/mt-tb.cgi/417

コメントする