上手に使おう機械翻訳~プリエディット?ポストエディット?バックエディット?~
2019年のTCシンポジウムが、8月と10月にそれぞれ東京と京都で開催されました。お忙しい中会場まで足をお運びいただきありがとうございました。KIでは、昨年に引き続き、今年も事例研究発表を行いました。「日英機械翻訳前のプリエディット」というタイトルで、昨年のテーマを引継ぎ、その一部を発展させたものです。今回のTransReedでは、そのことについて少しご紹介したいと思います。
え?バックエディット?
プリエディットとは、原文に対して何らかの編集を機械翻訳の前に行うことですが、どの段階でそれを行うかによって大まかに二つに分けて考えることができます。
この言葉は、元々は、機械翻訳が苦手とする表現などのエラーを減らすことを目的として、機械が翻訳を行う前段階の編集を指す言葉として使われ始めたものでした。それに対して、機械翻訳の出力結果を見て、そこにエラーがあったときに、それを解決することを目的として原文に手を加える編集のことを指してプリエディットと呼ぶこともあります。編集した文は、再度機械翻訳にかけられるわけですが、一度機械翻訳にかけた後に行う編集処理として考えると、こちらの手法はポストエディットの一環として考えることもできます。タイプの異なる二つの編集方法ですが、どちらもプリエディットと呼ばれるため、認識の違いから話がかみ合わない原因となることもあります。ここでは、出力結果に見られるエラーの症状から推測される原文の問題点を、原文にフィードバックして行う編集ということで、バックエディット(back-edit)と呼ぶことにします。
下の表は、プリエディット、ポストエディット、バックエディットそれぞれを、編集対象と作業のタイミングから考えてまとめたものです。
編集対象 |
作業のタイミング |
|
プリエディット |
原文 |
機械翻訳 出力前 |
ポストエディット |
訳文 |
機械翻訳 出力後 |
バックエディット |
原文 |
機械翻訳 出力後
(原文編集後再出力)
|
今回は、このうちのバックエディット、特に長文におけるバックエディットということに焦点を当ててお話したいと思います。
どうしてバックエディットするの?
日本語と英語の違いには様々なものがありますが、そのひとつとして、文の長さをあげることができると思います。ここで言いたいのは、日本語と英語の文を比べた場合に、言語特性として平均的にその長さが異なるということではなくて、英語では理解をするのに多大な苦労を伴うような長文でも、日本語では比較的容易にそれが行われるということです。
例えば、人前で誰かが何かについて話をしているような場合を考えてみると、専門的に訓練されている方のスピーチでは別なのかもしれませんが、一般の人が話をするのを聞いていると、「~ですけれども…」や、「~で…」や、「~して…」のような接続詞や助詞を使って、いつまでたっても文が切れずに続いていくことがあります。この段落の文を読みながら、まさにそのような印象を受けた方もいるのではないかと思いますが、ただ不思議なことに、というよりは、これは日本語の特性としてそうなのでしょうけれども、このようないわゆるrun-on sentenceと呼ばれる文でも、それほど理解するのに苦労するということもなく、日常的にはほとんど気が付かずにやり過ごしていることが多いのではないかと思います。
機械翻訳はまさにこのような文を苦手としています。(とは言え、近年における機械翻訳の著しい性能の向上によって、完全ではないにしろ、それでも驚くほどの精度の結果が出力されるようになっていますが。)
では、どうすればよいでしょうか。ここで登場するのがバックエディットです。機械翻訳の出力結果が悪かった場合に、その原文を修正することで出力結果の改善を図ります。長文のバックエディットにおいて、最も手軽な方法は文を分割することです。そして、文を分割するために必要なことは、句点、つまり「まる(。)」を挿入することです。たったこれだけのことです。たったこれだけのことなのですが、これによって、誤訳だらけだった機械翻訳の出力結果を場合によっては完璧といえるほどの精度にまで高めることができます。
やってみよう、バックエディット!
では、どこで分割すればよいでしょうか。ひとつだけご紹介しましょう。
日本語には接続助詞というものがありますが、そのなかでも、終止形や連体形に接続するものの前に句点を挿入すると、比較的うまくいくことが多いようです。活用語の終止形と連体形は同形であることが多く、また、終止形はその名の通り文を終止させるための形ですから、そこでは文をきれいに切ることができます。ひとつ例をあげてみましょう。
いくら機械翻訳の性能が向上したからと言って、実際に試してみるまでは、それでもまだ人手による翻訳の方が高品質で正確だと思っていたが、そうとも限らないことがわかりとても驚いている。 |
この文をそのまま機械翻訳にかけると次のようになります。
Even though I was able to improve the performance of machine translation, until I actually tried it, I still thought that manual translation was still higher quality and accurate, but I was very surprised to find out Yes. |
訳文は、私が機械翻訳の性能を向上させたことになっているうえ、文末には唐突にYesという単語もあり不正確なものです。
では、こちらの文にバックエディットを試してみましょう。この文には、「が」という接続助詞が使われているますので、その前に句点を挿入してみます。
いくら機械翻訳の性能が向上したからと言って、実際に試してみるまでは、それでもまだ人手による翻訳の方が高品質で正確だと思っていた。が、そうとも限らないことがわかりとても驚いている。 |
まず編集された原文ですが、句点が挿入されることによって、文が2つになりましたが、そのことによる違和感はありませんし、意味も編集前のものとほぼ同じものと言って差支えないでしょう。それでは、句点を挿入することで出力される訳文がどのように変わるのか見てみましょう。
Even though the machine translation performance has improved, until I tried it, I still thought that manual translation was still higher quality and accurate. But I am very surprised to find out that this is not the case. |
スタイルや表現にぎこちなさは残るものの、原文の意味はほぼ正確に訳文に反映されています。(上記の検証は12月2日時点に行ったもので、現時点での同様な結果を保証するものではありません。)
もちろん、欠点もあります。機械翻訳にはブラックボックスのようなところがあるため、バックエディットによって出力結果がどのように変化するのかはやってみるまではわかりません。いくらやってもうまくいかない、ということも当然あります。このため、1、2回試してみても出力結果が向上しなかった場合には、潔くあきらめて人手による修正や編集に切り替えることが大切です。作業の効率化を求めて機械翻訳を利用することが多いでしょうから、バックエディットに時間を割いて生産性が落ちてしまうようでは本末転倒でしょう。
まとめ
機械翻訳におけるバックエディットについて、ごく簡単にご紹介しましたが、ちょっとしたひと手間で、訳文のエラーを解決し、品質の向上をはかることができるバックエディットは、機械翻訳を活用するにあたって非常に有効な手法となる可能性を持っています。プリエディット、ポストエディット、バックエディットの3つの編集を上手に使い分けて組み合わせることで、より効率よく機械翻訳を運用することができるようになります。
川村インターナショナルの翻訳サービス
機械翻訳を最大限に活かして翻訳を行う「ポストエディット翻訳サービス」の需要が高まっています。ポストエディット (Post Editing) とは、スピードとコスト重視の機械翻訳だけでは品質が不十分なケースで、人手による後編集を適用して、お客様が求める翻訳に仕上げるサービスです。
すべてのコンテンツ、文書に対してポストエディットが適しているわけではありませんが、ローカリゼーションを中心にマーケティング翻訳、マスメディア翻訳などはポストエディットに向いている文書と言えます。
また、例えばDeepLの日本語対応化など、機械翻訳エンジンの進化、変化に伴い、ポストエディターに求められる能力も徐々に変わってきています。今後も機械翻訳とポストエディットの動向に目が離せません。
川村インターナショナルでは、今までに経験したポストエディット案件量と作業者の数が違います。英語と日本語のペアに限定せず、英語から欧州言語など、ネイティブの言語を話すポストエディターを確保できるのも弊社の強みです。お客様が抱えるあらゆる問題について、多様なご提案をさせていただきます。お気軽にお問い合わせください。
関連記事