機械翻訳にとっての鬼門：多義語と同綴異義語

2019-11-06 05:00（更新：2021-09-28 04:28）KIマーケティングチーム機械翻訳

機械翻訳ポストエディットみんなの自動翻訳＠KI (商用版)

効率化とコストカットを実現すると昨今注目を集める機械翻訳。GoogleやDeepL等の機械翻訳を導入する企業はこれまでになく増え続けています。

しかし、機械翻訳エンジンによって生成される訳文の品質はまだまだ万全とは言い難いです。文書の種類や分野など、様々な要素によって、その品質は左右されます。

様々なものが機械翻訳の「鬼門」となり得ますが、その中でも今回は「多義語」と「同綴異義語」についてご紹介します。

目次[非表示]

1.同音異義語と多義語
2.文法に基づく解釈
3.意味に基づく解釈
4.文脈に基づく解釈
5.常識に基づく解釈
6.おわりに
7.KIのサービス

同音異義語と多義語

突然ですが、次の2つの英文を和訳してください。なお、いずれも文法的に正しい文です。

I think that that that that that boy said is wrong.
I can can a can the can can't can.

いかがでしょう。中学校で習う単語しか出てこないのに、すぐには意味がとれないと思います。それは、いくつもの「that」や「can」が、さまざまな意味で用いられているからです。

これらの文の「that」や「can」のように、いくつかの異なる意味を持つ単語を「多義語」といいます。文の中で多義語が使われている場合、それがどの意味で使われているかを特定しなければ、正しい翻訳はできません。

ところが、コンピュータープログラムで多義語の意味を特定することは困難です。そのため、機械翻訳は、多義語を含む文の翻訳を苦手としています。

文法に基づく解釈

もっとも、上記2つの文は、わざと複雑に作った不自然な文なので、人間の翻訳者でも訳すのにてこずるでしょう。それでも、文法的にじっくり考えれば、それぞれの単語の意味を特定できます。

最初の文から見てみましょう。まず「I think that ～」は「～と思う」ですね。少し飛ばして「that boy said ～」は「あの少年が～言った」。その直前の「that」が関係代名詞だとすると、残りの「that that」が「said」の目的語で「あのthat」。まとめると「あの少年が言ったあのthatは誤りだと思う。」となります。

次の文のポイントは、「can」に「～できる」と「缶」の2つの意味があることです。また、「缶」の意味の「can」を動詞で使うと「缶詰にする」という意味になります。

では、訳してみましょう。「a can」の「can」と「the can」の「can」は前に冠詞があるのでどちらも「缶」、「can can」と「can't can」は助動詞+動詞でそれぞれ「缶詰にできる」と「缶詰にできない」、全体で「その缶が缶詰にできない缶を私は缶詰にできる。」と訳すことができます。

これら2つの例では、多義語の意味を文法から特定することができます。しかし、最先端の機械翻訳であるニューラル機械翻訳（neural machine translation：NMT）では、文法に基づく推論をしていません。そのため、Google翻訳などのNMTエンジンでは、これらの文を正しく訳すことは（少なくとも現在は）できません。

意味に基づく解釈

「can（～できる）」と「can（缶、缶詰にする）」のように、たまたま綴りが同じで意味がまったく異なる単語を「同綴異義語（どうてついぎご）」または「同形異義語」といいます。

They were arguing over only one minute point for a long time.

（彼らは長い間、たった1つの些細な点をめぐって口論していた。）

という英文をいくつかのNMTエンジンで訳したところ、以下のような訳になりました。

彼らは長い間1分足らずで議論していました。

彼らは長い間、1分間だけ論争していました。

彼らは長い間、たった1分で議論をしていた。

いずれも、「minute（細かい）」を「minute（分）」と取り違えたために、意味がわからない訳文になっています。この文の「one minute point」は「1つの細かい点」と解釈しなければ意味が通りません。

ところが、

You can revert the database to any one minute point.
（データベースを1分ごとの任意の時点に戻すことができます。）

のような文では、同じ「one minute point」でも「1分（ごと/前）の時点」という意味にとらなければなりません。

人間の翻訳者にとって、「minute（細かい）」と「minute（分）」は意味が異なる別の単語です。文全体で意味が通るようにしようとすれば、どちらの「minute」であるかを特定して、適切に訳すことができます。

しかし、現在の機械翻訳では、単語や文の意味は考慮されません。そのため、同綴異義語を区別することができませんし、意味が通らない訳文でも平気で出力してしまいます。

文脈に基づく解釈

同綴異義語でなくても、同じ単語が文脈によって異なる意味になることがあります。そのような単語を訳すときは、文脈に合った訳語を選ばなければなりません。たとえば、次の英文を考えてみましょう。

The manual is hard to follow.

（このマニュアルは（follow）が難しい。）

実は、この英文の意味はこれだけでは定まりません。この文の「follow」は2通りの意味に解釈できます。

「follow」をOxford English Dictionaryで引いてみると、多数の意味があります。その中で、「Act according to ～」（～に従って行為する）と「Understand the meaning of ～」（～の意味を理解する）の2つが、上記の文にあてはまります。

前者の意味になるのは、たとえば機械のマニュアルについて話していて、動作させるのに複雑な手順が必要な場合です。その場合には「このマニュアルは従うのが難しい」という訳になるでしょう。

また、後者の意味になるのは、たとえばプログラム言語のマニュアルについて話していて、言語の構文がわかりにくい場合で、「このマニュアルは理解するのが難しい」という訳になるでしょう。

どちらの訳が正しいというのではなく、文脈によって正しい訳が異なるのです。

もう1つ例を挙げましょう。コンピューターソフトウェアのマニュアルに、次の文があったとします。

The signature may change in a future release.

（この（signature）は将来のリリースで変更される可能性があります。）

専門用語では、同じ単語でも分野ごとに異なる訳語が定着していることがよくあります。この文の「signature」もその1つで、コンピューター関連に限っても、ウイルス対策、暗号、プログラミングの3つの分野でそれぞれ定訳が異なります。

Microsoft社の用語集を見ると、マルウェアなどを特定する情報の場合は「定義」、データの送信者を証明する情報の場合は「署名」、関数の特性を定める情報の場合は「シグネチャ」と3通りの訳語が登録されています。翻訳するときは、ソフトウェアの種別や機能に応じて訳し分けなければなりません。

ここで挙げた「follow」や「signature」のような多義語をどう訳すかは、文脈から判断する必要があります。ところが、現在の機械翻訳では、文章を文や段落に分けて個別に翻訳しています。前後の文章とのつながりは考慮されません。そのため、文脈に合った訳になるかどうかは、完全に運任せです。

常識に基づく解釈

では、機械翻訳の技術が進んで、文法や意味や文脈を考慮できるようになったとしたらどうでしょう。それでも機械翻訳に訳せない文があると指摘した人がいます。マサチューセッツ工科大学で機械翻訳の研究をしていたYehoshua Bar-Hillelは、1960年に次の例を挙げました。

The box was in the pen.

これは、たとえば次のような文脈で使われるでしょう。

Little John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy.

（ジョンくんはおもちゃ箱を探していました。やっと見つけました。その箱は（pen）の中にありました。ジョンはとても喜びました。）

この「pen」をどう訳せばよいでしょう。筆記具の「ペン」でしょうか。でも、おもちゃ箱がペンの中にあるはずはありませんね。

英語の「pen」は同綴異義語で、「ペン」のほかに、家畜などの「囲い」という意味があります。野球が好きなかたなら、「ブルペン」の「ペン」だといえばイメージしていただけるでしょう。

この文の「pen」は、小さい子どもの囲いですから、「ベビーサークル」と訳さなければなりません（ちなみに「ベビーサークル」は和製英語で、英語では一般に「playpen」といいます）。

「pen」に「ベビーサークル」の意味があることは、辞書を引けばわかります。コンピューターが学習することもできるでしょう。しかし、この文を正しく訳すには、そのような言語に関する知識だけでは不十分です。ペンはおもちゃ箱より小さくベビーサークルはおもちゃ箱より大きいという「常識」が必要なのです。

そのような言語外の知識を持たないコンピューターにとって、「pen」を「ペン」と訳すべきか「ベビーサークル」と訳すべきか判断することは不可能です。

では、コンピューターに、言語に関する知識だけでなく、世界のありとあらゆることに関する知識を教えたらどうでしょう。もちろんそんなことはできませんし、仮にできたとしても、その知識のすべてを使って計算するなら、いつまでたっても翻訳が終わらないでしょう。

おわりに

Bar-Hillelが提起した問題、すなわちコンピューターには常識に基づく判断ができないという問題は、現在では「フレーム問題」と呼ばれ、人工知能一般にとって難問中の難問であることが知られています。

もし、常識を備えた翻訳プログラムができたとしたら、そのプログラムは、人工知能にとって最大の問題を解決したということになります。そうなれば、すぐに汎用人工知能を作ることができるでしょう。

逆に言えば、汎用人工知能ができないかぎり、機械翻訳で多義語や同綴異義語を完全に翻訳することはできないでしょう。機械翻訳の品質が人間に追いつくのはまだまだ先のように思われます。

KIのサービス

機械翻訳を最大限に活かして翻訳を行う「ポストエディット（PE）」による翻訳サービスの需要が高まっています。ポストエディット (Post Editing) とは、スピードとコスト重視の機械翻訳だけでは品質が不十分なケースで、人手による後編集を適用して、お客様が求める翻訳に仕上げるサービスです。すべてのコンテンツ、文書に対してポストエディットが適しているわけではありませんが、ローカリゼーションを中心にマーケティング翻訳、マスメディア翻訳などはポストエディットに向いている文書と言えます。また機械翻訳エンジンの進化、変化に伴い、ポストエディターに求められる能力も徐々に変わってきています。今後も機械翻訳とポストエディットの動向に目が離せません。

川村インターナショナルでは、今までに経験したポストエディット案件量と作業者の数が違います。英語と日本語のペアに限定せず、英語から欧州言語など、ネイティブの言語を話すポストエディターを確保できるのも弊社の強みです。お客様が抱えるあらゆる問題について、多様なご提案をさせていただきます。お気軽にお問い合わせください。