機械翻訳の前にプリエディットを行って訳文がどのように変わるのか試してみた ~英日編~
機械翻訳の発展はここ数年目覚ましく、特にニューラル機械翻訳(NMT)の登場によって、機械翻訳は非常に実用的なものになりつつあります。内容を確認するだけであれば機械翻訳をかけただけのものでも事足りる場合もあります。しかしながら、英語と日本語の文法、文化の違いや、文脈を考慮して文を完璧に翻訳するにはまだまだ十分とは言えず、人力の翻訳にはおよびません。
機械翻訳をかけただけの不完全な訳文を人間の手によって編集し、読みやすくすることを「ポストエディット」と呼びます。一方、機械が翻訳しやすいように原文を前もって編集することを「プリエディット」と呼びます。近年この「プリエディット」という手法が注目されています。
プリエディットはまだ一般には広く普及していませんが、今後機械翻訳のワークフローの一部として大きく発展する可能性のあるジャンルです。
今回はそのプリエディットの可能性を探るべく検証を行いました。その結果をご紹介したいと思います。
まずは原文をそのまま機械翻訳にかけてみる
今回は素材としてWikipediaの「Machine translation」の記事を使用しました。
機械翻訳エンジンは誰でも使用できるGoogle翻訳を使用しています。
https://translate.google.co.jp/
冒頭の一文を機械翻訳してみると、次のような訳になりました。
原文 出典:https://en.wikipedia.org/wiki/Machine_translation Machine translation, sometimes referred to by the abbreviation MT (not to be confused with computer-aided translation, machine-aided human translation (MAHT) or interactive translation) is a sub-field of computational linguistics that investigates the use of software to translate text or speech from one language to another. 訳文 機械翻訳(略称MTで呼ばれることもある)(コンピューター支援翻訳、機械支援人間翻訳(MAHT)、またはインタラクティブ翻訳と混同しないでください)は、テキストを翻訳するソフトウェアの使用を調査する計算言語学のサブフィールドです または、ある言語から別の言語へのスピーチ。 |
分かるような、分からないような、微妙な日本語になってしまいました。特に後半はうまく訳せていませんね。これをどうにかしてプリエディットして精度を上げられるかを試します。
最低限意味が理解できるものを目指す
今回は日本語としての読みやすさは度外視して、少なくとも意味が通るように原文を編集してみます。
主語の部分「Machine translation, ~ is」の部分はこのままでも良さそうですが、後半部分には問題がいくつかあります。
a sub-field of computational linguistics that investigates the use of software to translate text or speech from one language to another. テキストを翻訳するソフトウェアの使用を調査する計算言語学のサブフィールドです または、ある言語から別の言語へのスピーチ。 |
一番目立つのが「or speech from one language to another」の部分が切り取られて訳文の最後尾に押し出されてしまっている部分です。
実際は「テキストまたはスピーチ」と訳すのが適当であるため、ここに手を加える必要があります。
ヒントは「シンプルな原文」
「or」以降が切り離されているため、原文の結束性に問題があると考えられます。そこで、機械が見誤らないように結束性を保つにはどうすればよいでしょうか。
後半部分が正しく訳されるように、text or speech を text/speech や text and speech に変えてみましたが、結果はあまり変わりませんでした。
ここで思い出したのは、機械翻訳は「複雑な構文や長文」が苦手だということです。例えば関係代名詞などで長々と補足が付け加えられているものや、 「~~ ,and ~~,and ~~, or ~~」のように延々と文中に情報が入っている長文は、原文をうまく解釈できないことがあります。これは、機械翻訳は人間のように「考えながら」訳しているわけではないため、仕組み上どうしても起こり得る現象です。
ここでもう一度原文を見てみます。
Machine translation, sometimes referred to by the abbreviation MT (not to be confused with computer-aided translation, machine-aided human translation (MAHT) or interactive translation) is a sub-field of computational linguistics that investigates the use of software to translate text or speech from one language to another. |
Machine translation という主語と動詞である is の間に、主語に対する長々とした補足があります。この部分を省略してみます。
Machine translation is a sub-field of computational linguistics that investigates the use of software to translate text or speech from one language to another. |
だいぶすっきりしました。これを機械翻訳にかけた結果が以下のとおりです。
機械翻訳は、テキストまたは音声をある言語から別の言語に翻訳するためのソフトウェアの使用を調査する計算言語学のサブフィールドです。 |
きれいに訳されました。ところどころ不自然ではありますが、やはり文中の補足部分がノイズとなって精度を下げていたようです。
では、省いてしまった補足部分はどうすればよいのでしょうか。今回はシンプルに外に出してしまいます。Investigate も research に変えてみましょう。
Machine translation is a sub-field of computational linguistics that researches the use of software to translate text or speech from one language to another. Machine translation is sometimes referred to by the abbreviation MT (not to be confused with computer-aided translation, machine-aided human translation (MAHT) or interactive translation) 機械翻訳は、テキストまたは音声をある言語から別の言語に翻訳するソフトウェアの使用を研究する計算言語学のサブフィールドです。 |
だいぶ本来の意味に近づいてきました。
少なくとも原文が何を言わんとしているかを読み取れるレベルにはなりました。
プリエディットについて感じたこと
今回は実際の業務での使用は考慮せず、訳文を見ながら原文を手直ししていくという方法を取りました。ただし、今後実務にプリエディットを取り入れていくことを考えると、効率を重視した場合、訳文を確認しながらの作業はあまり効果的とは言えません。
また、実務での使用となると、機械がどのように用語レベルの微調整を行い、各単語を翻訳するかを、我々が高い精度で予測することは困難です。そのため、できるだけ「原文を訳しやすいようにシンプルに分解していく」という作業が、英語から日本語へのローカライズにおけるプリエディットの肝ではないかと個人的には感じました。
今後どこまで実用的にプリエディットを取り入れていけるかについてはまだまだ検討の余地がありますが、機械翻訳の活用に対するアプローチとしては有用である可能性が高いと思います。
KIのサービス
「プリエディット」と同様に、機械翻訳を最大限に活かして翻訳を行う「ポストエディット(PE)」ポストエディット (Post Editing) とは、スピードとコスト重視の機械翻訳だけでは品質が不十分なケースで、人手による後編集を適用して、お客様が求める翻訳に仕上げるサービスです。
すべてのコンテンツ、文書に対してポストエディットが適しているわけではありませんが、ローカリゼーションを中心にマーケティング翻訳、マスメディア翻訳などはポストエディットに向いている文書と言えます。また機械翻訳エンジンの進化、変化に伴い、ポストエディターに求められる能力も徐々に変わってきています。今後も機械翻訳とポストエディットの動向に目が離せません。
川村インターナショナルでは、今までに経験したポストエディット案件量と作業者の数が違います。英語と日本語のペアに限定せず、英語から欧州言語など、ネイティブの言語を話すポストエディターを確保できるのも弊社の強みです。お客様が抱えるあらゆる問題について、多様なご提案をさせていただきます。お気軽にお問い合わせください。
関連記事