言わば教材

さぞや強力な機能であろうATOK12の自動学習ツール。
いかんせん「中文和訳の訳文だけ学習」を自動化できるわけではなかった。
どうもATOKは日本語と中国語を区別しないらしい。
結果として適当な読みの中国語文字列が入った「文書学習ツール辞書」が誕生。
日本語が出ないのでは無意味なので、対策をひねり出した。


先日Tradosのメモリを検索するために書き出したテキストが残っていて幸いだった。
全件でこそないが、8割がたの訳文は収録されている。
テキストファイルなので、秀丸エディタで訳文(日本語)だけ抽出すればよいのだ。
対象範囲は<Seg L=JA>と</TrU>に挟まれた部分、と定義できる。
あとは正規表現を使って検出し抽出すればよい、のであるが。
恥ずかしながら、正規表現なるものを初めてまともに使ったのだった。
ExcelやAccessのワイルドカードならば使ったこともあるが、法則性が違う。
機会を設けて練習せねば身につくまいと思いつつ、まず1ファイルを秀丸で開く。
<Seg L=JA>.\</TrU>
と検索してみたが何も引っかからない。
見たところ、訳文本文と</TrU>の間には改行が入っているようだ。
であれば、対象範囲は<Seg L=JA>と改行の間ということになる。
<Seg L=JA>.
\n
に改めたところうまくいったので、「grepの実行」の「検索する文字列」に入力。
1206grep.jpg
元データは250ファイルあったが10分あまりで抽出処理ができた。
行頭から<Seg L=JA>を削除すべく、以下をnullに置換。
^[^>]*JA>
その結果をATOKの自動学習用にテキストファイルとして保存した。
「文書学習ツール」での処理時間は今度は40分ほど。
表示件数は1万ちょうどだったが、登録件数は1万5千あまりとなった。
今度はまともに目視確認して削りこめば使えそうだ。
削り込んだ結果、残ったのは621件。歩留まり4%が高いか低いか。

カテゴリーTIPS

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です