みなさん、用語集は活用していますか?
用語集は様々な目的で作成されますが、たとえばそのうちの一つに、翻訳作業があります。用語集は翻訳の品質を左右する重要な構成要素です。ある言語から別の言語に翻訳する際に、同一のものを別の名称で書き換えていては、文書の整合性もおかしくなりますし、それによって論理性も破綻します。
では、用語集がないとどのような問題が発生するのでしょう。そして、用語集の利点とは何でしょうか。
企業で翻訳に携われる方々にとって「用語集」は非常に関心の高いテーマです。こうしたニーズに応えるべく「用語集の利活用」をテーマにして連載記事をお届けすることになりました。今回はその第ニ弾です。
第一弾は、こちらからお読みいただけます。
バイリンガルの用語集があれば早く安く高品質な翻訳ができる、とわかっていても、いざ用語集を作ろうとすると、大変な作業が待っています。翻訳しながら1つずつコツコツ登録すると、時間がかかりますし、過去の翻訳を活用することができません。
一方、過去に翻訳した原文と訳文のペアから用語を拾うには、多くの人手が必要です。
すでに翻訳された原文と訳文のペアがある場合、対訳データから自動的に用語集を作ってくれるツールがいくつかあります。しかし、それらはどの程度実用的なのでしょうか。ここでは、3つの用語集作成ツールについて、原文が日本語、訳文が英語の場合で試した結果を紹介したいと思います。
なお、動作の検証には、以下2種のデータを使用しました。
ツールAに対訳形式のファイルを登録して、既定の設定で用語集を作成したところ、最初の10項目が以下のようになりました。
見てすぐわかるように、日本語の単語を認識できていません。用語の候補がすべて4文字以下になっていますが、これは、既定の設定で、用語の最大単語数が4になっているからです。つまり、1文字を1単語として処理しているのです。
どうやら、このツールは、英語などのように単語を分かち書きする言語で使用することを想定しているようです。単語を分かち書きしない日本語には、実質的に対応していないといってよいでしょう。
また、抽出された原語に対する訳語は、自動では抽出されず、手動で入力する必要があります。もっとも、原語を選択すると、原語が含まれる原文とそれに対応する訳文が表示されるので、訳語をコピーアンドペーストで入力することができます。
なお、原文と訳文の表示では、該当する原語を含むすべての原文がリストアップされるので、訳語の揺れを確認することもできます。たとえば、次のUbuntuデータのスクリーンショットを見ると、「設定」という原語に対して「preferences」「setup」「configuration」「settings」と4通りもの訳語が使用されていることがわかります。
このように、原文と訳文を表示する機能はたいへん役に立ちます。それがこのツールの大きな利点ですが、いかんせん日本語の文を単語に分けられないため、このツールは実用的とはいえません。
ツールBについても、既定の設定で用語集を作成しました。最初の5項目は以下のようになりました。
このツールは日本語の単語をいくらか認識しているようですが、用語としては不適切な長いフレーズを拾う傾向があるようです。これは、既定の設定で用語の最大単語数が10になっているためです。また、名詞など用語集に含めるべき単語と助詞など用語集に含めるべきでない単語の区別をしていないようです。
そこで、用語の最大単語数を1にしてみると、最初の10項目は以下のようになります。
漢語やカタカナ語は適切に抽出できていますが、漢字とひらがなが混じる単語(「関する」「その他」など)では、漢字部分だけを用語と認識してしまうようです。Ubuntuデータにアルファベットが出ていることからも、日本語の処理が不十分だといえるでしょう。
このツールの利点として、対訳データから用語集を作成したとき、抽出した原語に対応する訳語を自動的に探して、いくつかの候補を示してくれます。ただし、残念ながら、日本語の用語に対応する英語の用語を見つけることは苦手なようです。
上記の用語の中から4つを例にとって、ツールBが提案した訳語を列挙すると、次のようになります。
正しい訳といえるのは「設定 - preferences」しかありません。また、ツールAで見つけることのできた「設定」の訳揺れも、ツールBの結果からはわかりません。ツールBの訳語抽出機能は、少なくとも原語が日本語の場合は、実用的でないといえます。
このツールでは、前記2つのツールと異なり、各用語の単語数を設定できません。抽出された用語の最初の10件を次の表に示します。
法令データ |
Ubuntuデータ |
規定 |
ゲーム |
必要 |
ファイル |
サイバーセキュリティ |
クライアント |
施策 |
設定 |
法律 |
カード |
認定 |
アプリケーション |
主務大臣 |
表示 |
推進 |
シンプル |
調査 |
ツール |
業務 |
編集 |
この結果からわかるように、単語数の設定をしなくても、日本語の用語を適切に取得しています。また、この表にはありませんが、「その他」や「使い方」など、漢字とひらがなの混じった用語も抽出しています。
このツールではまた、ツールBと同様、各用語の訳語候補も抽出されます。ツールBで例に挙げた用語について、ツールCでは以下が訳語の候補として提案されました。
規定 |
サイバーセキュリティ |
ゲーム |
設定 |
provision |
Cybersecurity |
game |
Settings |
provisions |
Chief |
Game |
Configuration |
|
|
games |
Preferences |
|
|
game type |
configuration |
|
|
trails |
Configure |
|
|
last game |
settings |
おおむね正しい訳語が検出できていますが、用語集を作るためには、適切な候補を採用して不適切な候補を捨てる作業が必要です。また、まれに「平成 - Act」や「サーバー - EBU-R128」のような「誤訳」もあり、修正も必要です。これらは手作業で行う必要があります。
「設定」の訳語候補を見ると、訳文中でいくつかの訳語が使用されている可能性があることもわかります。ただし、これだけでは、実際の文章で原語と訳語が本当に対応しているのかはわかりません。「サイバーセキュリティ - Chief」のように、単にツールが誤った訳語を提案したのかもしれません。
訳語の候補が複数あるとき、訳文で複数の訳語が使われているのか、それともツールが正しい訳語と誤った訳語を提案しているのかを判定するには、原文と訳文を参照する必要があります。そのとき、ツールAのように原文と訳文を表示する機能があれば便利ですが、残念ながらツールCにはその機能がありません。
いかがでしたでしょうか。今回の内容をまとめてみます。
次回は、用語集と合わせて検討すべき三大方針について共有します。