調整作業

実績として最大規模の案件を受注してしまい、複数の意味で総力戦になっている。
人間同士の調整が一番の難点だが、記録しておきたくないので割愛。
せめて自分の範疇だけは統一した世界観で仕事を進めておきたい。
しかし大量にある原稿はPDFで支給されたのだった。


原稿は全て繁体字中国語(Big5)で作成されている。
とは言えBig5の文字列が抜き出せるかと言えば、必ずしもそうは行かない。

・全ての文字情報が抜き出せる
・一部の文字情報が抜き出せる
・画像情報しかなく文字情報がない
・文字情報もあるがエンコードが識別できない

とまあファイルによって状態がまちまちなのだった。
正直なところ所要工数が把握できない。
文字情報が抜き出せないファイルは一旦JPEG画像に書き出してOCR処理にかける。
手元のOCRソフトは優秀ながら簡体字中国語(GB2312)しか出力できない。
このままで行くと作業用原稿が繁体字と簡体字の2種類になってしまう。
自分(人間)が同じものとして読めてもTRADOS(機械)がそうは卸さない。
手間だが、まとまった量があるので一本化する利は十分に見込まれる。
最大(120枚超)のファイルが画像情報のみだったので、簡体字に揃えることにした。
久々に中国語コンバータの出番である。
120701.jpg
使い勝手としては実に簡単なソフトなので説明は不要だろう。
抜き出せる文字情報はBig5テキストとして保存しGB2312に変換する。
後はOCR処理したものと同様に不要な改行を削除するのみ。
抜き出した時点で語順が入れ替わる可能性もあるので神経は使うが時間はかからない。
各ファイル分量の概数は提供されているのだが、当てにならない。
しかもファイルによって文字間隔もろもろも違うので、進捗管理など到底無理。
管理のための管理、調整のための調整だが必要悪だと思っている。
複数ファイル間で統一すべき/流用できる表現がかなりあることが救いか。

“調整作業” への2件の返信

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です