中国語には繁体字と簡体字がある。
前者は昔からある漢字で、後者は文化大革命の絡みで発明された大陸独自の文字だ。
情報処理の点から言うと、前者はBig5、後者はGB系の文字コードが使われている。
文字コードが違うということは、パソコンから見て両者が違う代物だということを意味するのだ。
ところが中国語に使われる文字セットはUnicode準拠のため、両者を包摂している。
つまり、同一の表に別の文字として登録されているのだ。
例えば「経」には7D4C、「经」には7ECFとコードがつけられている。
簡体字を読める人の目にはどちらも同じ(意味の)文字だが、機械はそう思ってくれない。
枕が長くなった。
某案件でややこしい原稿が出てきたのだ。
・「簡体字」と発注されたにもかかわらず、文字がどう見ても繁体字。
・字体は大陸で広く使われている「SimSun」がほとんど。
・いずれの文字コードで作成されているのか知る術はない。
これら三点は、普通の人から見て何ら問題にならないことばかりである。
私の場合どこが普通でないのかというと、手元に同一顧客の過去訳を持っていることだった。
過去訳は簡体字で「SimSun」表記の原文だったものが蓄積してある。
同一顧客の過去訳があれば用語や言い回しをそちらに合わせて翻訳を進めるのが常。
ところがいざ検索しようとすると、上記の理由で引っかかってくれないのだ。
それでも用法や前後の表記を覚えていればどうにか探し当てることはできたのだが。
一晩で訳し終えて早朝に納品したはずが、午後になって「新版」原稿が支給された。
旧版との差異がどこにあるかの案内はない。
それどころか、新版は全編が見るからに簡体字で作成されていた。
つまり、昨晩との差分を取るにも機械的に検索できないということだ。
新旧両方を並べれば、目には同じ箇所がすぐ分かる。
そこで旧版の対訳から訳文を拾ってきて新版の該当箇所に貼り付ける作業とあいなった。
記載順が一致しているうちは、それでもよかったのだが。
書式の保持やら何やらと表面には出ない作業もあれこれ発生。
しかし新版への対応経費は新規訳出分の文字数に通常単価を乗じた金額だけだった。
手間は倍ほど掛かっているのに釈然としないが、商品は成果物なのだから致し方ないか。