英語関連だと専門用語辞書も電子化が進んでいるらしいが、中日ではそうはいかない。
紙の辞書にでもありつければ幸せなほうだ。
中国語の専門用語辞書は大小11冊ほど持ってはいるが、中日辞書は1冊しかない。
中英だったり、英日中(漢)だったりして、すぐには調べがつかないのである。
そこで電子情報分野の英日漢辞書を電子化してみることにした。
英日漢辞書というのは、英語が見だしで日本語と中国語が引ける辞書である。
英日辞典の日本語部分に中国語も載っているような紙面構成なので使いにくい。
中国語から日本語を探すには結構な手間がかかるのだ。
1.部首索引(日本語とは部首の定義が違う)から先頭の文字を探す
2.先頭の文字を頼りに中国語索引から掲載ページを探す
3.掲載ページ(見出しは英語)を開いて該当の中国語を探す
4.その直前に書かれている日本語を確認する
電子化されていれば一瞬で検索できるはず、とはかねてから思っていた。
いかんせん3言語の混じったページをスキャンして「はい完了」とは行かない。
中国語の判読性能が優れたソフトは持っているが、混在するとやはり難しいのだ。
混在を回避すべく執れる手段と言えば、中国語索引と日本語索引のスキャン。
両方を合わせると550枚を超える。
しかも上述のとおり掲載ページまでしか追えないので簡単に対訳にはならない。
ページ数を暫定キーとしてデータベース化し、関連付け処理をするつもりだ。
キーとして用いるからにはOCR校正の時点で正規化も挟む。
いつできるのやらといった作業量だが、やっていけば少しは身につくかもしれない。