機械翻訳を知ろう! Globalese編
昨今、機械翻訳がこれまでになく注目を集めています。
Google翻訳、Microsoft、IBM、DeepL....機械翻訳エンジンは様々な企業から提供されていますが、どのようなポイントに着目してエンジンを選べばよいのでしょうか。
今回は機械翻訳エンジンの一つである「Globalese」を例に挙げながら、機械翻訳エンジンの選定のポイントを考えてみました。
機械翻訳エンジンの導入をご検討中の方は、ぜひご一読ください。
なお、本記事では、昨年の12月にリリースされたGlobalese3.5の新機能を中心に解説しています。2019年7月現在の最新バージョンは3.7です。最新版の詳細はこちらからご覧いただけます。
目次[非表示]
Globaleseとは?
Globaleseとは、ハンガリーに拠点をおくMorphoLogic Localisationから開発・提供されている機械翻訳エンジンです。機械翻訳の品質を飛躍的に向上させるに至った「ニューラルネットワーク」を用いており、従来の機械翻訳エンジンとは異なる質の高い訳文の出力が期待できます。
機械翻訳エンジンには様々な種類があり、Google翻訳などのように無料で提供されているものもあります。このようなサービスはブラウザ上で翻訳が完結するため、気軽に利用できますが、その反面、情報漏えいの恐れがあります。また、自社特有の指定用語や表現に準拠したカスタマイズの訳出を行えません。
Globaleseでは、自社に設置したサーバー上で運用できるため、機密文書が外部に漏れる恐れがなく、用語や言い回のカスタマイズを行うこともできます。
多様な翻訳支援ツールとも連携が可能なため、翻訳業務が日常的に発生しているような現場では、導入による大幅な効率化が期待できます。
従来のGlobaleseの課題
「オンプレミスでも展開ができる」
「機密データが社外に漏れることがない」
「自社でカスタマイズトレーニングができる」
「費用対効果が高い」
数あるニューラル機械翻訳エンジンの中でも、Globaleseは上記のような特徴を強みに機能拡張を続けてきましたが、唯一の課題がありました。機械翻訳エンジンを訓練するための教師データを、ユーザー側で用意する必要があったのです。
ニューラル機械翻訳では、ディープニューラルネットワークと深層学習を利用しているため、出力される訳文の精度が学習用コーパス(対訳データ)の分量と関連性に左右されます。言い換えれば、翻訳対象のドキュメントと関連性の高い訳文データがあればあるほど、精度の高い訳文が出力されるのです。
そのため、対訳データを保持していないユーザーにとっては、Globaleseの本来持つ機能をフルに活用できない状態になっていました。
Globalese3.5の新機能
しかし、2018年12月に「Globalese」の新しいバージョン3.5がリリースされ、対訳データを所有していないユーザーでも気軽に利用ができるようになりました。
本バージョンから、Stock Corpora(ストックコーパス、汎用対訳データ)が提供されるようになったため、事前に対訳データを用意してエンジンを訓練しなくても、ある程度の精度の訳文が出力できるようになりました。
ここに、自社でお持ちの対訳データをアップロードしてドメインアダプテーション(≒ドメインに特化したカスタマイズ)処理を実行することで、自社に特化したニューラルエンジンを構築できるようになりました。
つまり、すでにストックされている汎用対訳データと、自社の対訳データを合わせて訓練することで、自社の分野や表現に合わせたカスタマイズ(ドメインアダプテーション)ができるようになります。
Globaleseはドメインアダプテーションの先駆け
ここで、Globaleseの強みである機械翻訳の「ドメインアダプテーション」(カスタマイズ)について注目してみましょう。
ドメインアダプテーションという技術は近年世界的にも注目を集めています。カスタム機械翻訳市場動向を調査したIntentoという第三者評価機関の調査結果によると、2017年以降かなり多くの機械翻訳プレイヤーがカスタマイズエンジンに参入しています。
引用元: ”State of the Domain-adaptive machine translation by Intento”
この中でもGlobaleseは、カスタム機械翻訳エンジン市場において実にかなり早い段階からカスタマイズを実行できるようになっていました。
引用元: ”State of the Domain-adaptive machine translation by Intento”
GoogleやDeepLなどよりも良いスコアをたたき出したGlobalese
さて、ドメインアダプテーションの先駆けとして第一線を走り続けているGlobaleseですが、出力結果の品質はどうなのでしょうか?
上記の引用元のSlideShare(英語)に記載されていますが、生物医科学の分野における英語⇒ドイツ語翻訳で機械翻訳の検証調査の結果を確認してみます。
この調査では3種類のデータを比較しています。
- 正解の訳文
- 汎用データのみで構築された汎用エンジンの出力
- 2000セグメントでカスタマイズ(ドメインアダプテーション)処理をしたエンジンの出力
この3種類のデータを、「hLEPOR」という評価指標(欧州言語間の翻訳においては、日本で一般的な指標「BLEU」よりも優れているとされる)で評価を行い、比較しました。
その結果、Globaleseは、ベースラインが充実したGoogle AutoMLやMicrosoft Custom Translatorよりも良いスコアを残しました。(Globaleseは上位2番目。Googleは3番目、Microsoftは5番目)
詳細は、上記の既出のSlideShareをご参照ください。
引用元: ”State of the Domain-adaptive machine translation by Intento”
費用対効果の比較においてもダントツのコストパフォーマンス
精度の高い訳文を出力できることは分かりました。それでは、コストの面ではどうでしょうか。
カスタマイズにかかる費用は、カスタマイズ機械翻訳を評価する重要なポイントの一つに挙げられます。
上記のSlideShareでは、運用費用を含めた総所有コスト(TCO)を基準に各エンジンを評価しています。特にGoogleのAutoMLやMicrosoftのCustom Translatorは、ベータ版/プレビュー版という扱いもあって、まだカスタマイズにどれだけの費用が掛かるのか実証していないケースが多く、下記のデータは大変貴重です。
引用元: ”State of the Domain-adaptive machine translation by Intento”
まず初めに、エンジンの品質評価にも費用が掛かることを忘れてはいけません。その後の継続的トレーニングにかかる費用と、システムの維持費用、処理量に応じて重量課金される費用を合わせて考慮する必要があります。
特に翻訳会社などでは、顧客の専門領域や固有の表現に合わせたエンジンを構築する必要があり、その分コストもかかります。
5万ワード/月程度の処理量をこなすと仮定した場合、Intento社の調査では下記のような結果が得られました。
- Microsoft Custom Translatorを使用した場合:月約521 USドル
- Google AutMLを使用した場合:月210 USD
- Globaleseを使用した場合:月額58 USDで固定
100万ワード/月程度の処理量をこなしたと仮定すると、以下のような結果になりました。
- Microsoft Custom Translatorを使用した場合:月約2,137 USドル
- Google AutoMLを使用した場合:月761 USD
- Globaleseを使用した場合:月額58 USDで固定
これだけを見ても、総所有コストは圧倒的にGlobaleseの方が安く済むというのがお分かりいただけると思います。
英文和訳、和文英訳の品質はどうか
では、先ほどの調査結果のような言語方向が英語→ドイツ語ではない組み合わせの翻訳では、機械翻訳の品質はどうなるのでしょうか。
実は、Globaleseでは新バージョンより日本語のストックコーパスが提供されるようになりましたが、利用に際して費用が発生します。また、対訳データの量がさほど多くないため、日英・英日、日中・中日、日韓・韓日など、日本語を起点としたIT領域の機械翻訳に限ると、社内検証によって、Microsoft Translatorよりは良いものの、国立研究開発法人が開発している「みんなの自動翻訳@TexTra」の精度には及ばないことが分かりました(当社調べ)。
日本語を起点とする機械翻訳では、「みんなの自動翻訳」あるいはGoogleを、品質、TCO、情報セキュリティの観点から判断して選定し、欧州言語では、要件に応じてGlobaleseを使用する、という選択肢もあると思います。
やはり品質が選定条件の大前提にはなりますが、カスタマイズ、評価~運用のTCO、データセキュリティの観点で見ると、意外にも選択すべき機械翻訳エンジンは限定されてきます。お客様がGoogleを選ぶ理由、選ばない理由というのは実は案外知られていないのです。
おわりに
いかがでしたでしょうか。本記事が、機械翻訳エンジンの選定の一助になれば幸いです。
川村インターナショナルでは、機械翻訳導入をご検討中の方向けにホワイトペーパーを無料で配布しています。ご興味のある方はぜひ下記からダウンロードをお願いいたします。
関連記事
評価レポートを公開してくれた第三者評価機関の情報
Konstantin Savenkov
e-mail : ks@inten.to
2150 Shattuck Ave Berkeley CA 94705
川村インターナショナルはIntento社より、調査結果翻訳、および公開の許諾を得ています。
LinkedInアカウント https://www.linkedin.com/in/savenkov/
企業アドレス https://inten.to/