キーワードは「アダプティブ」 AutoML Translationの登場で加熱する自動翻訳市場
Google NMT をカスタマイズ?
AutoML Translation のβ版が登場
2018年6月、AutoML Translation のベータ版が公開されました。
簡単に言うと、Google翻訳を自社用にカスタマイズできるようになったということです。
NMT(ニューラル自動翻訳)により精度が大きく向上したGoogle翻訳、自分好みにカスタマイズできるなら試してみたい、という声もたくさん耳にするようになりました。
NMTは、用語の適用がうまくいかなかったり、訳抜けが発生したりと問題点も少なくありません。しかし、以前の機械翻訳結果にありがちだった「不自然さ」が大幅に改善し、流暢で自然な翻訳が出力されるようになり、利用者からもポジティブに受け止められるようになってきました。
(流暢すぎて、誤訳に気が付かないケースもあることから注意は必要ですが。。)
精度向上には大量の教師データ(コーパス)が必要
良い翻訳モデルを作成するためには、正しい翻訳文のデータセット(対訳コーパス)が必要です。GoogleやMicrosoftなどの大企業では、大量の対訳データを保有(あるいは収集・作成)して機械学習をさせることで、自動翻訳エンジンの精度を大きく向上させたといわれています。
どれくらいのデータセットが必要かというと、1億文~10億文あるいはそれ以上ともいわれています。
最近の機械翻訳精度の向上は、膨大なデータセットを収集して作成したモデル使用することで、実現しているわけですが、こうしたモデルは一般的(汎用的)な用途に使用されることが多く、特定の分野や技術、自社の用語の適用などが難しいという弱点もあります。
比較的少量で実施可能なアダプテーション
こうした弱点を克服できる技術、ということで今注目を浴びているのは「アダプテーション」という技術です。
アダプテーションとは、巨大なデータセットに特定の分野(ドメイン)の対訳データを加えて再度機械学習をさせることで、その分野に特化した翻訳結果を出力できるようすることです。
アダプテーションにはいくつか手法がありますが、汎用機械翻訳モデルが既に存在するため、ドメインに特化した教師データは比較的少量で済むというところが特徴です。
Microsoft社はMicrosoft Custom Translatorのプレビュー版を発表した。(https://portal.customtranslator.azure.ai/)
汎用モデルを持っているデータホルダーが自動市場に参入
とはいえ、汎用翻訳エンジンを作るための大量のデータは、一般の企業では収集できないため、Google社やMicrosoft社のようなデータホルダー(所有者)がカスタマイズ自動翻訳の市場に参入することに期待が集まっていました。
今回、Microsoft社に続いて、Google社でもカスタム自動翻訳が構築できるようになったのは、自動翻訳業界でも大きく期待されているようです。
さて、外資系企業の活躍が目立つ自動翻訳業界ですが、国内では総務省と国立研究開発法人情報通信研究機構(NICT)が連携して「翻訳バンク」という枠組みを構築しました。(http://h-bank.nict.go.jp/) 。
「翻訳バンク」には国内の企業が連携して翻訳モデルを構築するために必要な教師データを提供・収集しており、NICTはそこで集められた対訳データを教師データとして、様々な分野に特化した機械翻訳エンジンを構築しています。
「翻訳バンク」の取り組みが第2回日本オープンイノベーション大賞総務大臣賞を受賞しました。
(2021年02月26日)
自社向けカスタマイズを実施する際の注意点
特定ドメインに特化したカスタマイズには、こうしたデータホルダーとの協力が欠かせませんが、いくつか注意すべきポイントがあります。
1. まだ公開前の段階であることに注意
Googleにせよ、Microsoftにせよ、いまだベータ版、プレビュー版という位置づけで、サービスレベルが保証されているわけではありません。カスタマイズした翻訳モデルは、現状※はAPIを介して利用することができないなどの制約がある場合もあり、事前に注意が必要です。(※2018年10月時点)
2. 対訳データは収集されるのかどうかを確認する
現状※、GoogleもMicrosoftも正規版ではないため明確には記載されていませんが、カスタマイズのために提供した教師データが、二次使用される可能性も否めません。翻訳バンクは国家プロジェクトに対訳データを提供する代わりに、翻訳モデルをアダプテーションできたり、翻訳モデルの技術移転の費用を相殺してくれたりする枠組みであるため、ここではNICTが開発している国産自動翻訳エンジンの精度向上に寄与するために対訳データを提供することが前提条件として明記されています。(※2018年10月時点)
3. アダプテーション(カスタマイズ)にかかる費用は結構高い
アダプテーション(カスタマイズ)をするためには、GPUを搭載したサーバーリソースを準備する必要があります。GPUを搭載したサーバーはAmazon AWSでも、Google Cloud Platformでも、Microsoft Azureでも、クラウドサービスとして提供されているので、必ずしも自社で構築する必要はありませんが、短期間の運用でもそれなりの費用が掛かることを鑑みて、お試しされることをお勧めします。
まとめ
いかがでしょうか。欧州では、10万文を追加しただけで、自動翻訳の精度が大幅に向上したという検証結果も出ています。
コーパス、アダプテーション、カスタマイズと言うと、一見難しそうに見えますが、一度覚えてしまえば実はそれほど難しいものでもありません。
近い将来には自社で気軽に構築できる時代がくるかもしれませんね。
ひょっとすると、今後は本当に少量のデータから個人でも利用できるカスタマイズサービスが登場するかもしれません。ニューラル自動翻訳市場から目が離せません。
関連記事