【特別対談】機械翻訳の現状と展望は?⑤これからのMTは「ハイブリッド型」
半期に1回の特別対談企画。従来のルールベースや統計ベース、AIを活用したニューラルネットワークなど、機械翻訳にも様々な種類がありますが、今後注目すべき「ハイブリッド型」機械翻訳エンジンについて詳しく伺ってみました。
目次
- タイの最先端研究施設「NECTEC」とアプリ開発
- 東南アジアにおける機械翻訳研究の興りとその難しさ
- 自然言語処理とオントロジー
- ちょっと一息 タイの小話
- ハイブリッド型がアツい!機械翻訳の今後の展望
- ASEAN言語における機械翻訳エンジンの今後
- これから注目すべき機械翻訳エンジンの「分野」~ASEAN諸国を例に~
ハイブリッド型がアツい!機械翻訳の今後の展望
前田:
本日は本当に色々な話をお聞かせいただきました。
最後に、今一番力を入れている研究テーマと、これからの展望をお聞かせください。
テプチャイ:
そうですね。今現在は、英語-タイ語、そして中国語-タイ語の機械翻訳エンジンの開発に注力しています。
前田:
それはやはりNMTですか?
テプチャイ:
はい。NMTがベースにはなりますが、そこにRBMT(ルールベース)やSMT(統計ベース)のアプローチを取り入れた、ハイブリッド型のエンジンです。
一般的には、NMTによる出力結果の品質はSMTやRBMTよりも優れていますが、言語ペアや分野、あるいは文章の構造によってはSMTやRBMTの方が品質が良かったりすることもあります。
前田:
たしかに、そうですね。NMTの出力結果は基本的には及第点なんですが、時々思いもよらない間違いが出るんですよね。まるで駆け出しの翻訳者が完全に意味を取り違えてしまったような、そんな誤訳をしてしまうことがあります。
RBMTやSMTの場合は、どちらかというと「機械的な訳文で流暢さが足りない。ただし数字は絶対間違えない」など、ある程度の特長がありました。
一方、NMTの場合は完全に「やってみないとわからない」という状況なので、文書の内容や用途によっては、使いづらいという印象がどうしてもあります。
テプチャイ:
そう、NMTの難しいところは、出力結果の品質が悪い時にその理由がわからないことです。
なぜ品質の悪い結果が出力されるのか、という理由がわかれば、対処方法も考えやすいのですが、その理由がわからないとなると、解決策を講じるのも難しい。結果として「ただひたすらコーパスの量を増やすしかない」ということになってしまいます。
この「原因がわからない」「やってみないとわからない」というNMTの弱点をRBMTやSMTのアプローチを利用して補おうというのが、今現在進めている一番の研究テーマです。
前田:
それが実現できれば、機械翻訳の利用率も大きく向上しそうですね。
難易度を大きく左右する言語ペア
前田:
ちなみに言語ペアですが、英語-タイ語はわかりますが、中国語-タイ語を選んだのはなぜですか?やはりニーズ(ユーザーの数)でしょうか?
テプチャイ:
それもあります。中国からの観光客は年々増えてますし、ニーズの高い言語ペアから優先して取り組むべきですからね。
あとは、タイ語と中国語の文法構造が非常に似てるという点が挙げられます。
タイ語はシャム文字、中国語は漢字と、使用する文字が違うので、一見すると文法にも相違性はないように思いますが、実は結構似てるんです。
タイ語、中国語のいずれも時制による語形変化はありませんし、主語・述語・目的語で構成されるSVO言語という点でも同じです。これらの共通点は機械翻訳の処理を進める上で、とても大きな利点なんです。
前田:
なるほど。だからRBMTのアプローチを取り入れる事で品質が向上するわけですね。
テプチャイ:
はい。実際にブルースコアで比較しても、英語-タイ語よりも中国語-タイ語のスコアの方が良いんです。
翻訳の精度を上げる肝は「特定の分野のコーパスに絞る」
前田:
分野についてはいかがでしょうか?GoogleやMicosoftなんかは、どちらかというと汎用性が高いエンジンですよね。
しかし、特許なら特許関連文書のみのコーパス、法務なら契約書や法令のみのコーパスなど、特定の分野のコーパスだけで構築する分野特化型エンジンの方が、専門分野翻訳に向いてると言われています。
テプチャイ:
そうですね。我々も特定の分野に特化した研究を進めています。現在進めているのは「観光」ですが、将来的には「医療」と「法務」もやりたいですね。
前田:
「NMT +(RBMT+SMT)× 分野」ということですね。ハイブリッドというよりは「次世代型」って感じですね。英語-タイ語、中国語-タイ語の次は、ぜひ日本語-タイ語をお願いします。
テプチャイ:
個人的には、日本語-タイ語にすごく興味があります。日本語とタイ語では文法構造が大きく異なるので、NMT+RBMTよりもNMT+SMTによる改善要素の方が多いかもしれませんね。
そして、これはどの言語ペアにも言える事ですが、コーパスの収集も大きな課題の一つです。先ほどNICTの話でも挙がった「翻訳バンク」は非常におもしろい仕組みだと思います。
前田:
なるほど。レベルの高い研究を行うためには、現実的かつ柔軟な仕組みやフレームワークが必要ですね。それを整備していくのは、我々企業側の役割かもしれません。
テプチャイ:
ほんまや!そうやで!ちゃんとしてや!(笑)
前田:
ははは、最善を尽くしますのでどうかお手柔らかに。
<⑥に続く>