翻訳・機械翻訳・ポストエディットなど翻訳に関連する情報を発信
機械翻訳の現状と展望は?ASEAN編

【特別対談】機械翻訳の現状と展望は?②東南アジアの機械翻訳研究

半期に1回の特別対談企画。多様な言語がひしめく東南アジアでは、機械翻訳の研究がどのように進められてきたのでしょうか?複数言語に亘る研究の難しさを克服するための鍵は、意外にも「ネットワーキング」にありました。


目次

  1. タイの最先端研究施設「NECTEC」とアプリ開発
  2. 東南アジアにおける機械翻訳研究の興りとその難しさ
  3. 自然言語処理とオントロジー
  4. ちょっと一息 タイの小話
  5. ハイブリッド型がアツい!機械翻訳の今後の展望
  6. ASEAN言語における機械翻訳エンジンの今後
  7. これから注目すべき機械翻訳エンジンの「分野」~ASEAN諸国を例に~





東南アジアにおける機械翻訳研究の草分けとなったNECTEC

前田:
さて、NECTECの活動の話に戻りましょう。

NECTECでは、自然言語処理そして機械翻訳技術の研究を行っているということですが、どのくらい前から研究されてるのですか?
Googleが開発したNMT(Neural Net Machine Translation:ニューラルネット機械翻訳)の登場により、今でこそ機械翻訳は大きな話題を呼んでいますが、以前はそれほど注目されていなかったと思います。

テプチャイ:
いえいえ、もう随分と長い間やってますよ。僕がNECTECに入る前からだから、30年くらいになりますかね。

ルールベース(RBMT)の研究からはじまり、統計ベース(SMT)、そして現在のニューラルネット(NMT)など、様々なエンジンとそれらのエンジンを利用した様々なアプローチを研究してきました。

前田:
ということは、本当に初期段階の論理構築から技術開発、そしてその活用と応用まで、機械翻訳の技術進化の歴史を辿って来られたわけですね。

テプチャイ:
そうですね。機械翻訳の「進化論」というテーマで、ドキュメンタリー映画を一本とれそうです(笑)

僕がNECTECに入った時は、まだルールベースでのアプローチが主流で、今のように「大量のコーパスを集めて~」というやり方とは全然違うやり方をしていました。



前田:
なるほど。タイ語や東南アジア言語の機械翻訳エンジンも当時はルールベースを採用していたわけですね。

テプチャイ: 
はい。そうです。当時は日本の大手企業が今よりも率先して機械翻訳エンジンの開発に取り組んでいて、そのほとんどがルールベースのエンジンだったんです。我々もその理論や方法論を参考に、機械翻訳技術の確立に向けた研究を行いました。


ASEAN言語と機械翻訳、その難しさ

テプチャイ:
もう随分昔の話になりますが、日本のとある企業からの依頼で、東南アジアの5言語(タイ語、インドネシア語、ミャンマー語、ベトナム語、カンボジア語)の相互機械翻訳エンジンを構築するというプロジェクトが始まったのです。

それもルールベースでしたが、おそらくあれが東南アジア言語での機械翻訳エンジン構築に向けた最初のアプローチだったと思います。いや、タイにおける人工知能研究の第一歩だったと言っても過言ではないですね。

前田:
それはすごいですね。プロジェクトの壮大さもそうですが、日本の企業との連携で始まったというところに大きな縁を感じます。

ちなみにそのプロジェクトはどうなったんですか?やっぱり大変でした?(笑)

テプチャイ:
ものすごく大変でした。何しろ「東南アジアの5言語」と言っても、それぞれ言語体系が全く異なります表現の方法文法はもちろん、表記する文字自体も違うので、言語構造を解析するだけでも一苦労、いや二苦労でした。

あと、人員の確保にも苦労しました。NECTEC単独でタイ語、インドネシア語、ミャンマー語、ベトナム語、クメール語の専門家を集めるのは、さすがに難しいですから。
各国の研究機関や大学と連携して対応しましたが、それでも完成まで「5年」かかりました。当時のプロジェクトとしては結構大きな規模での対応でしたね。

前田:
ちょっと考えられないですね。タイ語やミャンマー語となると、僕なんかはコピペ(コピー&ペースト)するだけで不安になってしまいますよ。

テプチャイ:
ははは。すごく大変なプロジェクトでしたが、このプロジェクトのおかげでタイ、そして東南アジアの機械翻訳研究が一歩進んだのは間違いありません

また、このプロジェクトで苦労したおかげで各国の研究機関や大学とのネットワークも構築できました。そういった点でも、非常に意味のあるプロジェクトだったと思います。

前田:
なるほど、おっしゃる通りだと思います。我々も、日常的に様々な分野の研究者や協力会社様とやり取りを行いますが、ある程度の規模のプロジェクトになると、綿密なコミュニケーションはもちろん、高いレベルでの連携が欠かせません。

日本では「同じ釜の飯を食う」と言う言葉がありますが、共通のゴールに向かって共に苦労することでしか得られない連帯感というものは、まさにPricelessなものだと思います。



前田:
ちなみに、そのプロジェクトは日本の企業からの依頼ということでしたが、現在も日本の企業や研究機関との連携はありますか?

テプチャイ:
はい。前田さんほどではありませんが、我々も研究テーマによっては日本中国その他の国々の大学や研究機関と連携して対応しています。

大きなところだと、日本のNICT(情報通信研究機構)はご存知ですよね?

前田:
もちろんです。NECTECはNICTとも交流があるんですか?

テプチャイ:
はい。タイ語のNMT用コーパスの作成や音声データの書き起こしなど実務レベルでの連携はもちろん、ASEAN IVOという学会系のプロジェクトでも共同研究を行っています。

そういえば、少し前に発表された「翻訳バンク」の仕組みはとても良いですね。同じような仕組みをタイでも取り入れられたら、非常に面白いと思います。


前田:
翻訳バンクはおもしろいですよね。良質の機械翻訳エンジンを構築するには大量のコーパスが必要だということは、皆さん理解していて、「できればそれを共有したい」という思いを少なからず持ってると思んですよ。

でも、セキュリティや知財の観点からそれがなかなか難しい。そこをNICTの自動翻訳技術を利用する際のライセンス料金として相殺(あるいは低減)させることで、好循環を生み出すといういことです。ぜひ、タイやその他の国にも展開していきたいですね。

ところで、アセアン イボってなんですか?​​​

テプチャイ:
イボじゃなくてIVO
ICT Virtual Organization of ASEAN Institutes and NICTの略称です。日本の総務省とNICTを中心に、ASEAN諸国の研究機関や大学と連携したバーチャルな研究期間ですよ。

ついこの間も総会がありましたよ。知らないんですか?

前田:
​​​​​​​勉強不足でスミマセン。

③に続く

【インタビュアー】前田耕二

【インタビュアー】前田耕二

KI Hong Kong, Limited 代表取締役。 川村インターナショナル香港現地法人の代表として2012年より香港にて勤務。 中国語および東南アジア言語のローカリゼーション業務に従事。

この記事がお役に立ったらシェアをお願いします!

ホワイトペーパーはこちら

JSAマーク
ISO17100
JSAT 007

認証範囲:
金融・経済・法務、IT、医療・医薬、電気 ・機械、航空宇宙分野の技術翻訳サービス 及びソフトウェアローカリゼーション
SGS_ISO-IEC_27001_with_ISMS-AC
※当社では、ISO17100に準拠した翻訳サービスを提供可能です。
準拠サービスをご希望の場合は、ご依頼時にお申し付けください。