【MT summit XVI 開催間近!】 特別インタビュー企画 ④
「機械翻訳の現状と未来」
目次<続き>
「MT summit XVI @名古屋大学 豊田講堂の見どころ」
これからの研究分野と翻訳業界の課題
森口:ニューラルネットの機械翻訳システムに関連して今一番研究の対象になっているっていうか開発されている方たちが注力されている分野っていうのはどのあたりでしょうか。
中岩:一つはさっき言いましたように、単語が抜けたり、繰り返し出てきたりっていうニューラル翻訳の問題点を解決するための方策っていうのを探っている方向の研究があります。
あとは、すでにグーグル翻訳なんかも使っているんですけども、語順が違う言語対に関して、アテンションと言って、この訳をするときにはこの単語の並びの情報が重要だということを同時に学習させて語順を自然なものにしながら翻訳するアルゴリズムに関する方向の研究もあります。
さらに、統計翻訳と違って、ニューラルの場合は入力は単語じゃなくてもいいんです。たとえば文字でもいいわけですから、場合によっては部位、といった漢字の構成要素を入力データに使用して、性能を上げようという話もあります。
もう一つは、うまくいくかどうか分からないんですけど字面、単語、文と文だけをいれても、なかなか人間が持っている構造的な情報は扱えないという認識があります。
ただ単に文章をいれるのではなくて、たとえば入力文と出力文の構文解析しなくてもいいように、構造的な情報も機械学習させるためのパラーメータデータとして入れ込んで、構造的なものも含めた学習をさせるというような話がありますね。
ニューラル翻訳だからなんでもできるってわけじゃなくてやはりこう統計翻訳でも残っている課題は残っているんです。
最後にもう一つ。まだまだ難しいと思うんですけど、基本的にニューラル翻訳は計算量がたくさんありますので、基本的には一文単位文を越えての処理をどうやってやるかという話もあります。
省略された単語があったときに、実は補うべきものが、一つ前の文にあって、当然今翻訳している文と一つ前の文のなんらかの活性度っていうのかな、「情報」を使わないといけないんですけど、今は一文しか基本的には使っていません。文を超えてどうやって扱っていくかっていうのは課題です。
ほかの分野では複数の情報を統合しながら、学習させるというようなアルゴリズムが提案されているので、おそらく文脈の情報と翻訳の情報をうまく融合された二段階ニューラルネットみたいなものを作ることもできるとは思うんですけど、まだまだそこまで研究は至っていないということですかね。
森口:現在の研究開発の対象としては、皆さんニューラルネットにシフトされている印象があるんですけどそれは間違いないですか?
中岩: 間違いないですね
あとそれを支えるツールが世の中には出ていて、研究者自身も参入しやすいんです。統計翻訳の研究とニューラル翻訳の研究とを比較して、研究者側の難しさを考えると、実はニューラル翻訳のほうがずっと簡単だと言われています。
たとえば、統計翻訳の場合は訳を出すためにいろいろな工夫が必要です。私が聞いたところでは統計翻訳を研究しようとすると10 のプログラムを書かなきゃいけないところを、ニューラル翻訳の場合は 2 とか 3 とかすごく小規模なもので良い。
おのずと性能が出て研究開発しやすい。それに、ニューラル翻訳は日々進歩しています。半年で技術がどんどん進歩するので、そういう意味では最新の技術をウォッチするというのが研究者にとっても必要になります。
森口:我々も自社でニューラルの機械翻訳エンジンを構築していますが、お客様のとこで一番声が上がるのはやっぱり用語なんですね。
用語の処理については基本的には前に処理するか後に処理する以外には無いかなっていう感じはあるんですけど、そのあたり研究は何かあったりしますか。
中岩:やられてはいますね。ポストエディットの段階で、用語を変数化して後で入れ込む技術だとかいろいろとあるとは思うんですけど、それも技術が進んでいます。
技術で解決するのか、もしくは前処理/後処理で解決するのかというのは、まだまだモヤモヤしている段階だと思いますね。
それでも用語をどうやって扱うかっていうのは機械翻訳を使う上で必須の技術だと思うので、今はまだ確立してないですけどここ数年である程度方向性が出てくるか、もしくは扱うべき基本的な技術ができてくるんじゃないかなという気はしますけどね。
森口:用語集がどんなに整備されても、ケースバイケースで文脈に合わない用語が使われてしまうというリスクが絶対に消えない。
そこがニューラルネットの時にどうなるのかっていうのは期待したいところなんですけど、やっぱり人が一個一個判断しなきゃいけないところはまだ残っている気がします。
中岩:今まで統計翻訳の時に問題だった構文的な不自然さっていうのは、かなり MT 側に任せてもいいと思うんですよね。
やっぱり単語を、用語を翻訳するときは、どうしてもまだまだとんでもない訳が出てくるっていう話がさっきありましたけれども、そういうようなニューラル翻訳ならではの誤りをどうやって扱っていくかというのはこれからですよね。
繰り返しになりますけど技術で対応するか、プリエディット/ポストエディットの際に対応できるのかっていうのはたぶんおそらく両方が必要だと思うんです。
森口:話が出たのでポストエディットの話をしたいんですけれども、やっぱり機械翻訳がある程度使えると分かったが、まだ完璧じゃない。だから、その間を埋めるのがポストエディットという位置付けなのだと思います。
現状は機械翻訳を積極的に使う翻訳者さんと、機械翻訳は使いたくないという翻訳者さんがいて、真っ二つに分かれているようなところがあったりするんですけどその点についてご意見はありますか。
中岩:先ほども話しましたようにAAMTでも翻訳者にアンケートをとるんですけれども、昔よくあったような、機械翻訳に対する仕事がとられるっていう認識っていうのは、かなり少なくなってきたかなと、私は感じています。
今までは、統計翻訳では日本語の機械翻訳は無理だねという話だったのが、ニューラル翻訳になった段階でひょっとしたら使えるかもしれないと思うようになった。そのタイミングってすごく重要ですよね。
いろんな方法論が無いから機械翻訳は使えないねっていう状況のままでは良くないと思いますし、もうそういう状況にはないというのは明らかになっているのではないかと思ってもいます。
だからここ数年が、我々や翻訳業界の方もそうですけど、AAMTのような業界団体が、どんどん最先端の技術を把握して、使い方に関して情報を発信するというのが重要かなと思っています。
森口:ニューラル機械翻訳によるブレークスルー以降感じているのは、今回はユーザー側での品質確認だとか、生産性向上の検証をするチャンスがあると思ってるんですね。
たとえば、昔 CAT (Computer-assisted translation) ツールが初めて出た時に、翻訳者側ではなんだかぎこちない訳文が出てきて、それを直さなくてはいけないという負担だけ増えたと感じていた。
当時はどちらかと言うと翻訳会社がどうこうしたという話ではなくて、発注側が CAT ツールという技術が良さそうだから使うことに決めた。
そこで当然ですが、生産性が上がるツールのはずだから単価も安くしてほしい、とコスト削減圧力がきて、それが翻訳会社に、そして契約している翻訳者にというような具合に、検証する機会すらなく浸透していったわけですよね。
やっぱり翻訳者の方たちってそういうことが今後も起きるんじゃないかって考えているんじゃないかと思うんです。
機械翻訳を下訳にして本当に生産性が上がるかどうかはもちろん検証する必要がありますが、仮に生産性が倍になったからといって、発注単価を二分の一にしてくれっていう議論はどうかな、と。
これは新しいスキルだと思うし、新しいプロセスですから、インセンティブになるべきだと思うんです。
ニューラルネット機械翻訳が出てから期間が短いところもあるんですけど、現状は、翻訳会社、あるいは翻訳者側からある程度の提案を出せるという状況なんだと思っています。
中岩:そうですよね。翻訳業界のサービスって値付けも含めてちょっと不思議に思ってるんです。普通、どのサービスもそうですけど、あるサービスを提供している人たちに一日でできるか一週間でできるかによって単価が変わるじゃないですか。
倍になったり半分になったりするんですけど、機械翻訳のインパクトってもちろんクオリティ云々っていうのもあるんですけど、やはり最終的に時間が短くなるっていうのがポイントなわけです。
そういう技術があったときに、今まで一週間かかっていたのが一日でできるから受注が五倍できますよねっていうような発想ではなくて、早くサービスを提供できるようになったんだからそれなりのエクストラというような、通常の様々な分野でのサービスでの値付けスタイルにしていかないと、という感じがしますね。
そうすると翻訳者も収入増えて、しかも短い時間でどんどんこなせるんでいいよねというような話になると思うんですよね。そのあたりが、機械翻訳が実際の現場で活用されるかどうかというポイントだとは正直思いますね。
やはり翻訳連盟さんとか実際の翻訳に携わっている方々と一緒に協力しながら正しい方向性を検証していきたいし、議論していきたいとは思います。
森口:一応聞いておこうかと思います(笑)。最近よく話題に上がっていますが、人手による翻訳が将来はいらなくなるんじゃないか、とかそういう話についてどう思いますか。
中岩:そんなことはないと思いますね。やはりよく一般的に言われる話ですけど、たとえば小説の翻訳とか映画の字幕とかは、ある意味文脈なり状況なりをまず理解をして翻訳する必要があって、いわゆる機械翻訳調の翻訳だと意味やニュアンスが通じないっていうのがあるじゃないですか。
対訳データがあっても無理だと思いますよ。だからそういう領域のところはまだまだいつまでたってもというのは語弊があるかもしれないですけど、まだ何十年たってもできないかなと思います。
森口:Google翻訳の精度向上にみられるような、ジェネリックな対訳データを活用した機械翻訳は、ニューラルネットの登場である程度の精度が底上げされたと思うんですね。
たとえば、特定の企業だけとか、たとえば医療メーカーさんだけが活用するエンジンなのに、学習された対訳データが汎用的過ぎると、不十分な部分が出てきてしまうじゃないですか。
じゃあ各利用者が、そこまで深堀りして自社で NMT エンジンを構築するかというとやっぱり難しいところもあるかと思うんですよね。
そうなったときに人が介在するという余地っていうのはあると思うし、翻訳に関わる人のノウハウや翻訳者の知見はどうしても必要なのかなという風には思ってるんですけど。
中岩:そうですね。だから機械翻訳技術が急にNMTで上がって、使えるようになると、それを使いこなしてビジネスしようと。今はそういうタイミングだと思います。
日本の場合は幸いにしてある意味後発なので(笑)、少なくとも先人のヨーロッパ、アメリカの人たちの方法論を学ぶべきですよね。
たとえば、スペイン語と英語だとすでに統計翻訳の時代から機械翻訳が使えるというのがある程度分かっているのでじゃあそれを活用してビジネスしようとか。じゃあ具体的にどうするのっていう話に関しては、やはり先走っている欧米のベストプラクティスを我々は学ぶべきだと思います。
あとすでに述べたような NMT ならではの訳文の傾向があるので、それに関してはたとえばMT summit ですとか、アジアもしくはヨーロッパ、アメリカの、リージョナルな組織等と協力しながらある種方法論をみんな確立してシェアしていく必要があると思っています。