翻訳・機械翻訳・ポストエディットなど翻訳に関連する情報を発信
機械翻訳の現状と展望は?ASEAN編

【特別対談】機械翻訳の現状と展望は?⑥ASEAN言語と機械翻訳

半期に1回の特別対談企画。機械翻訳エンジンの開発には欠かせない「コーパス」の収集。ASEAN諸国の言語では、経済格差(発展差)の存在により、コーパスの収集が難航している側面がありました。


目次

  1. タイの最先端研究施設「NECTEC」とアプリ開発
  2. 東南アジアにおける機械翻訳研究の興りとその難しさ
  3. 自然言語処理とオントロジー
  4. ちょっと一息 タイの小話
  5. ハイブリッド型がアツい!機械翻訳の今後の展望
  6. ASEAN言語における機械翻訳エンジンの今後
  7. これから注目すべき機械翻訳エンジンの「分野」~ASEAN諸国を例に~

ASEAN言語における機械翻訳エンジンの今後

前田:
さて、現在はハイブリッド型 × 分野特化型の次世代エンジンの研究に取り組まれてるということですが、これから先、5年~10年という中長期的なスパンで見たときにはいかがでしょうか?

機械翻訳エンジンにおける今後の展望と合わせて、テプチャイさんの考えを聞かせてください。

テプチャイ:
まず機械翻訳エンジンについてですが、ここ数年間はNMTをベースとしたエンジンが主流であり続けると思います。
そこに、今我々がやってるような、ハイブリッド型だったり、分野特化型だったり、あるいは用語集やその他の機能を「+ α」として構築していくという形になっていくのではないでしょうか。

そして、この「+ α」にこそ色々な可能性があって、それこそ用語フレーズの管理もそうだし、同義語代替表現の提案などの機能があってもおもしろいですね。

前田:
なるほど。「+ α」と言うと、音声認識技術画像認識技術との連携をもっと進めてほしいですね。機械翻訳エンジンそのものは、あくまでもテキストデータを処理の対象としてしてるじゃないですか?

でもユーザーとしては、画像データを直接読み込めたり、音声データを直接読み込んで、テキストとしてアウトプットが出せるようになればもっと助かります。
あ、というか、それこそ我々企業側の役割ですね。様々な技術を組み合わせて、新しいソリューションを生み出す努力をしないと。

テプチャイ:
ほんと、よろしくお願いしますよ!(笑)

ASEAN言語用の機械翻訳エンジン、その実現性は?

テプチャイ:
あと、中長期的なプランというほどでもありませんが、この先作りたいと思ってるのはASEAN言語用のハイブリッド型エンジンです。

前田:
それは先ほどお話にあった、5言語(タイ語、インドネシア語、ミャンマー語、ベトナム語、クメール語)用エンジンの進化版みたいなものでしょうか?

テプチャイ:
いや、全てのASEAN諸国の全公用語をカバーする完全版をつくりたいと思ってます。つまり、その5言語にタガログ語、マレー語、ラオス語、タミル語の4言語と英語、中国語を加えた11言語になります。

前田:
それはすごいですね。前回のRBMTのエンジンがベースになるんですか?

テプチャイ:
いや、現在開発を進めているNMT+(RBMT+SMT)のハイブリッド型エンジンがベースになると思います。実はこのASEAN言語用エンジンの開発は、以前にもやったことがあるんです。

少し前の話になりますが、2015年にSCMITというASEAN committeeで、ASEAN言語+英語の10言語用の機械翻訳エンジンを開発するというプロジェクトが立ち上がりました。ひとまずデモ版の作成ということで、当時評判良かったSMTのエンジンをベースに、観光分野に特化したコーパス20,000文を集めてエンジンを構築したんです。

前田:
20,000というとコーパスの量としてはやや不十分な気もしますが、出力結果の品質はいかがでしたか?



テプチャイ:
そこはまあ、デモ版でしたからね。言語にもよってだいぶ差はありましたが、それでも品質はなかなか良かったです。
もちろんコーパスの量をもっと増やせば出力結果の品質も良くなります

前田:
では、これから作ろうとしている次世代型エンジンでは、もっと大量のコーパスを使うわけですね。

テプチャイ:
そうですね。最低でも50~100万文くらいのコーパスは集めたいですね。しかし、前田さんもご存知だと思いますが、ASEAN言語の共通コーパスを集めるのはとても難しいんです。

まず第一に、ASEAN諸国間での経済格差(発展差)がその理由の一つとして挙げられます。現在、ASEANには10ヵ国の国家が加盟していますが、インフラの整備状況や教育事情など、加盟国間で様々な経済格差(発展差)があります
例えば、シンガポールやタイでは地下鉄や電車が普通に走ってますが、インドネシアではようやく地下鉄の第一号がジャカルタで開通したところです。ベトナムは現在建設中(ホーチミン)で、ミャンマーラオスでは、建設も始まってません。

ということは、ミャンマー語やラオス語の地下鉄関係、鉄道関係の文章は、タイ語やインドネシア語に比べると圧倒的に少ないということになります。当然、テキストデータやコーパスの量も限られます

前田:
なるほど。たしかに経済の発展度合い(特にインフラ面)と情報資産の保有状況は、ある程度比例する傾向にあると思います。

テプチャイ:
第二にASEANという枠組みの在り方も関係していると思います。

ASEANはよくEUと比較されますが、実際のところは大きく違います
まず、EU(Europe Union)がいわゆる「超国家機構」であるのに対し、ASEAN(Association of South- East Asian Nations)は経済共同体という枠でしかありません。

超国家機構というのは国家よりも上位に位置し、そこに所属する国に対して大きな強制力を持ちます。一方で、経済共同体にはそこまでの強制力はなく、よく言えば各国の個性や意思がより生かされる枠組みですね。

前田:
ASEANは自由貿易協定(FTA)の広域版、拡張版とも言えますよね。

テプチャイ:
そんな感じです。そんなことから、EUでは
製品に付属する文書を何言語分用意するとか、英語版と各国語版をそれぞれ用意するとか、文書によって色々規定がありますよね。必然的に複数言語コーパスを集めやすい環境が整ってるんです

しかしASEANにはそういった規定は特にありません。ほとんどの場合、各国が必要なものを自国の言語だけで作るので、なかなかコーパス化しにくいんですね。

前田:
それはありますね。欧州言語のコーパスは東南アジア言語に比べると集めやすいし、TAUS(Translation Automation User Society)などが提供している有料コーパスも充実してます。

テプチャイ:
事情は様々ですが、ASEAN言語の集めるのはとても難しい。しかし、次世代型機械翻訳エンジンを構築には、良質なコーパスが必要です。それも大量に。

だからこそ、さっき話にあがった翻訳バンクのような仕組みやフレームワークをつくって、各国の研究機関や大学、そして企業と連携して進めていく必要があるんです。

前田:
仰る通りですね。我々企業側も今あるサービスの提供と、それによる利潤の追及だけでなく、将来的な可能性を見据えた活動をしていかなければいけません。

例えば、国や地域を超えてコーパス収集を請け負い、それを共有する仕組みが作れたらおもしろい。

テプチャイ:
​​​​​​​それは、将来的には大きな価値を生み出すかもしれないね。頑張って!

⑦に続く

【インタビュアー】前田耕二

【インタビュアー】前田耕二

KI Hong Kong, Limited 代表取締役。 川村インターナショナル香港現地法人の代表として2012年より香港にて勤務。 中国語および東南アジア言語のローカリゼーション業務に従事。

この記事がお役に立ったらシェアをお願いします!

ホワイトペーパーはこちら

JSAマーク
ISO17100
JSAT 007

認証範囲:
金融・経済・法務、IT、医療・医薬、電気 ・機械、航空宇宙分野の技術翻訳サービス 及びソフトウェアローカリゼーション
SGS_ISO-IEC_27001_with_ISMS-AC
※当社では、ISO17100に準拠した翻訳サービスを提供可能です。
準拠サービスをご希望の場合は、ご依頼時にお申し付けください。