透かしの入ったページをきれいにOCRする方法

面白いことを発見した。
支給原稿が紙(又は画像PDF)のとき、たまに透かしや背景画像にぶつかるが
背景画像がOCRに拾われてしまうと該当箇所の文字が読み取れない。
そういうページに限って文字数が多かったりすると捨てるのも忍びない。
読み取りを諦める前に。
ひと手間でかなり救われる場合があるのでメモ。
該当ページの画像ペイントで開き、背景を薄い灰色で塗る。以上。
これだけでモノクロ画像がかなりぼやけるので、
OCRが透かしをただのノイズとして読み捨ててくれるようになる。
今のところ成功率90%。
ほぼ完全に読み取りたい文字が目視できている(テキストにもできている)。

カテゴリーTIPS

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です