【特別連載】

バイリンガル用語集を

自動的に作成する方法?

みなさん、用語集は活用していますか?

用語集は様々な目的で作成されますが、たとえばそのうちの一つに、翻訳作業があります。用語集は翻訳の品質を左右する重要な構成要素です。ある言語から別の言語に翻訳する際に、同一のものを別の名称で書き換えていては、文書の整合性もおかしくなりますし、それによって論理性も破綻します。

では、用語集がないとどのような問題が発生するのでしょう。そして、用語集の利点とは何でしょうか。

企業で翻訳に携われる方々にとって「用語集」は非常に関心の高いテーマです。こうしたニーズに応えるべく「用語集の利活用」をテーマにして連載記事をお届けすることになりました。今回はその第ニ弾です。

第一弾は、こちらからお読みいただけます。

用語集作成ツールは実際に使えるの?

バイリンガルの用語集があれば早く安く高品質な翻訳ができる、とわかっていても、いざ用語集を作ろうとすると、大変な作業が待っています。翻訳しながら1つずつコツコツ登録すると、時間がかかりますし、過去の翻訳を活用することができません。
一方、過去に翻訳した原文と訳文のペアから用語を拾うには、多くの人手が必要です。

すでに翻訳された原文と訳文のペアがある場合、対訳データから自動的に用語集を作ってくれるツールがいくつかあります。しかし、それらはどの程度実用的なのでしょうか。ここでは、3つの用語集作成ツールについて、原文が日本語訳文が英語の場合で試した結果を紹介したいと思います。

 

なお、動作の検証には、以下2種のデータを使用しました。

  • 日本法令外国語訳データベースシステムから取得した「官民データ活用推進基本法」「サイバーセキュリティ基本法」「電子署名及び認証業務に関する法律」を日英対訳ファイルに加工したもの(この記事では「法令データ」とします)
  • OPUSから取得したUbuntuローカリゼーションファイルの日英対訳ファイル(この記事では「Ubuntuデータ」とします)

ツールA:優れた機能もあるが日本語の処理に難あり

ツールAに対訳形式のファイルを登録して、既定の設定で用語集を作成したところ、最初の10項目が以下のようになりました。

 法令データ  Ubuntuデータ

 する

します 

 に関する ます 
サイバー  ファイル 
ュリティ  ゲーム 
キュリテ  しま
セキュリ  ファイ 
イバーセ  なさい 
ーセキュ  ション
バーセキ  ーション 
民データ  きなさい 

 

見てすぐわかるように、日本語の単語を認識できていません。用語の候補がすべて4文字以下になっていますが、これは、既定の設定で、用語の最大単語数が4になっているからです。つまり、1文字を1単語として処理しているのです。

どうやら、このツールは、英語などのように単語を分かち書きする言語で使用することを想定しているようです。単語を分かち書きしない日本語には、実質的に対応していないといってよいでしょう。

また、抽出された原語に対する訳語は、自動では抽出されず、手動で入力する必要があります。もっとも、原語を選択すると、原語が含まれる原文とそれに対応する訳文が表示されるので、訳語をコピーアンドペーストで入力することができます。

なお、原文と訳文の表示では、該当する原語を含むすべての原文がリストアップされるので、訳語の揺れを確認することもできます。たとえば、次のUbuntuデータのスクリーンショットを見ると、「設定」という原語に対して「preferences」「setup」「configuration」「settings」と4通りもの訳語が使用されていることがわかります。

 

このように、原文と訳文を表示する機能はたいへん役に立ちます。それがこのツールの大きな利点ですが、いかんせん日本語の文を単語に分けられないため、このツールは実用的とはいえません。

ツールB:日本語の扱いも訳語の取得も不十分

ツールBについても、既定の設定で用語集を作成しました。最初の5項目は以下のようになりました。

 法令データ  Ubuntuデータ
 サイバーセキュリティに関する  s
 国は  取り去りなさい
 主務大臣は  上に置きなさい
 第十五条第二項において準用する場合を含む  次に置きなさい
 その他  ゲーム

このツールは日本語の単語をいくらか認識しているようですが、用語としては不適切な長いフレーズを拾う傾向があるようです。これは、既定の設定で用語の最大単語数が10になっているためです。また、名詞など用語集に含めるべき単語助詞など用語集に含めるべきでない単語の区別をしていないようです。

そこで、用語の最大単語数を1にしてみると、最初の10項目は以下のようになります。

 法令データ  Ubuntuデータ
 関  s
 規定  ゲーム
 サイバーセキュリティ  設定
 データ  置
 官民  ファイル
 行  ツール
 必要  表示
 国  管理
 施策  a
 他  用

漢語やカタカナ語は適切に抽出できていますが、漢字とひらがなが混じる単語(「関する」「その他」など)では、漢字部分だけを用語と認識してしまうようです。Ubuntuデータにアルファベットが出ていることからも、日本語の処理が不十分だといえるでしょう。

このツールの利点として、対訳データから用語集を作成したとき、抽出した原語に対応する訳語を自動的に探して、いくつかの候補を示してくれます。ただし、残念ながら、日本語の用語に対応する英語の用語を見つけることは苦手なようです。

上記の用語の中から4つを例にとって、ツールBが提案した訳語を列挙すると、次のようになります。

 規定  サイバーセキュリティ  ゲーム  設定
 respect  II  play  s
 respectively  ii  played  preferences
 respective  utilization  playing  preferred
 punished  utilizing  plays  tool
 Chief's  utilize  new  tools

正しい訳といえるのは「設定 - preferences」しかありません。また、ツールAで見つけることのできた「設定」の訳揺れも、ツールBの結果からはわかりません。ツールBの訳語抽出機能は、少なくとも原語が日本語の場合は、実用的でないといえます。

ツールC:日本語の処理は十分、訳語の取得は今一歩

このツールでは、前記2つのツールと異なり、各用語の単語数を設定できません。抽出された用語の最初の10件を次の表に示します。

 法令データ  Ubuntuデータ
 規定  ゲーム
 必要  ファイル
 サイバーセキュリティ  クライアント
 施策  設定
 法律  カード
 認定  アプリケーション
 主務大臣  表示
 推進  シンプル
 調査  ツール
 業務  編集

この結果からわかるように、単語数の設定をしなくても、日本語の用語を適切に取得しています。また、この表にはありませんが、「その他」や「使い方」など、漢字とひらがなの混じった用語も抽出しています。

このツールではまた、ツールBと同様、各用語の訳語候補も抽出されます。ツールBで例に挙げた用語について、ツールCでは以下が訳語の候補として提案されました。

 規定  サイバーセキュリティ  ゲーム  設定
 provision  Cybersecurity  game  Settings
 provisions  Chief  Game  Configuration
     games  Preferences
     game type  configuration
     trails  Configure
     last game  settings

おおむね正しい訳語が検出できていますが、用語集を作るためには、適切な候補を採用して不適切な候補を捨てる作業が必要です。また、まれに「平成 - Act」や「サーバー - EBU-R128」のような「誤訳」もあり、修正も必要です。これらは手作業で行う必要があります。

設定」の訳語候補を見ると、訳文中でいくつかの訳語が使用されている可能性があることもわかります。ただし、これだけでは、実際の文章で原語と訳語が本当に対応しているのかはわかりません。「サイバーセキュリティ - Chief」のように、単にツールが誤った訳語を提案したのかもしれません。

訳語の候補が複数あるとき、訳文で複数の訳語が使われているのか、それともツールが正しい訳語と誤った訳語を提案しているのかを判定するには、原文と訳文を参照する必要があります。そのとき、ツールAのように原文と訳文を表示する機能があれば便利ですが、残念ながらツールCにはその機能がありません。

まとめ

いかがでしたでしょうか。今回の内容をまとめてみます。

  • 原文と訳文を対にした対訳データがあるとき、自動的に原文から用語を抽出し、それに対応する訳語を提案してくれるツールがいくつか存在する。
  • いずれのツールでも、日本語をうまく使えなかったり、重要な機能が欠けていたりして、すべての訳語を自動的に抽出することは不可能である。
  • 訳語の入力や修正、複数候補からの訳語選択など、人手による作業は必須だが、ツールを使用することで、大幅な効率化が期待できる
  • 効率化ツールに必須の機能は、原文用語の抽出機能と、各用語が使用されている原文および訳文を表示する機能である。

次回は、用語集と合わせて検討すべき三大方針について共有します。


フィードバックフォーム
当サイトで検証してほしいこと、記事にしてほしい題材などありましたら、
下のフィードバックフォームよりお気軽にお知らせ下さい!
例えば・・・
CATツールを自社に導入したいが、どれを選べばいいか分からないのでオススメを教えてほしい。
機械翻訳と人手翻訳、どちらを選ぶべきかわからない。
翻訳会社に提案された「用語集作成」ってどんなメリットがあるの?
ご意見ご要望をお待ちしております!
新着記事一覧
JSAマーク
ISO17100
JSAT 007

認証範囲:
金融・経済・法務、IT、医療・医薬、電気 ・機械、航空宇宙分野の技術翻訳サービス 及びソフトウェアローカリゼーション
SGS_ISO-IEC_27001_with_ISMS-AC
※当社では、ISO17100に準拠した翻訳サービスを提供可能です。
準拠サービスをご希望の場合は、ご依頼時にお申し付けください。