翻訳・機械翻訳・ポストエディットなど翻訳に関連する情報を発信
OCRと形態素解析、翻訳資産の構築 川村インターナショナルの翻訳ブログ

翻訳会社についての豆知識 ~よくある質問⑧OCRと形態素解析、翻訳資産の構築~

スキャン画像だけでも翻訳依頼は可能?

過去に翻訳した文書を役立てることはできる?


翻訳の依頼を検討している人も、すでに依頼している人も必見!お客様の疑問を解消する「翻訳会社についての豆知識シリーズ・第八弾」です。翻訳会社のことを知らない方も、翻訳会社と取引をしたことがある方も、様々な方に翻訳会社を知っていただくためのコーナーです。

今回の記事で回答する質問は以下の3点です。気になる方はぜひご一読ください!

その1  データがスキャン画像しかないのですが、翻訳を依頼することはできますか?

 回答:

スキャン画像のみでも、翻訳をご依頼いただけます。

OCRを使用するなどして文字起こしを行い、翻訳する方法があります。

翻訳依頼時に対象となるデータを提出していただく必要がありますが、スキャン画像しか存在しないというケースがあります。お客様側で作成していないデータはもちろんのこと、お客様側で作成していたとしても、どの部署で作成したのか分からず、提出できるのはスキャンデータのみというケースは時々起こり得ます。そのような場合でも翻訳を依頼することはできるのでしょうか。


スキャン画像をそのまま翻訳することはできないため、先にテキストに変換する必要があります。原稿を見ながらすべてを手打ちすることもできますが、より効率よく作業するためにはOCR(光学的文字認識)を使用して文字起こしを行い、正しく書き起こせているか原稿を見ながら確認する方法があります。このようにして、翻訳前の作業でテキストを起こしてから翻訳を行います。したがってお手元にスキャン画像しかなくても、翻訳の依頼は可能です。


その2  特定の箇所のみ抽出して翻訳することは可能ですか?

回答:

可能です。

形態素解析という方法を使用して、効率よく該当箇所を抽出することができます。

予算や納期の都合で、文書全体ではなく、特定の箇所のみを翻訳したいというケースがあるかと思います。本来であれば該当箇所を抽出して、その部分のみを翻訳依頼すればよいのですが、該当箇所の抽出に大変な手間がかかる場合があります。そのような場合、どのような方法があるでしょうか。


例えば、膨大な数のアンケート結果について、不満にあたる内容のみを翻訳したい場合、該当箇所の絞り込みが必要ですが、かなりの手間がかかることが予想されます。その場合、形態素解析という方法を活用します。


形態素解析とは、言葉が意味を持つまとまりの単語の最小単位である形態素に分割することです。形態素解析後に、形容詞のみをピックアップし、ポジティブな内容とネガティブな内容に選別します。このようにして、効率よく不満にあたる内容のみに絞り込んで翻訳することができます。


川村インターナショナルではこのようなデータ活用サービスを提供しており、コストを削減しつつお客様のご要望にお応えしています。

  学習データ作成・アノテーションサービス | 翻訳会社川村インターナショナル テキスト、画像、動画などのデータにラベリング(メタデータ付与)を行い、データの分類や解析、AI用学習データの作成が可能になります。日本語や英語だけでなく、さまざまな言語のテキストデータを抽出したい。そんなお悩みも、専門性の高いリソースと言語に特化したテクノロジーでサポートします。<お見積もり無料> 翻訳会社川村インターナショナル


その3  以前翻訳した文書がありますが、役立てることはできますか?

回答:

翻訳メモリや用語集を活用することで、以前翻訳した文書を役立てることができます。

取扱説明書の海外展開が必要な場合などは、通常自社ないしは翻訳会社で翻訳を行います。海外向けの取扱説明書が完成して目的が達成されると、その翻訳データはもう使用されないということがあります。


しかしながら、過去に翻訳された文書は実は貴重な資産であり、有効活用することで以降の翻訳に役立てることができます。どのように役立てることができるでしょうか。​​​​​​​

1. 翻訳メモリ(TM)

翻訳メモリ(TM)とは、原文と訳文をセットにした対訳データ集のことです。新たに翻訳を行うときに翻訳メモリから流用できる部分を有効活用することで、既存部分との整合が取れるだけでなく、流用部分に応じて価格や納期を低減できるといったメリットが得られます


過去に翻訳したことのある製品の取扱説明書が更新されたとします。翻訳メモリがあれば、それを活用して可能な部分は流用しながら翻訳します。


翻訳メモリがない場合は、過去の原文データと翻訳データをご提供いただければ、それらを使って翻訳メモリを生成することができます。両者のデータを照合し、原文と翻訳文の対をセンテンス単位で作ることで翻訳メモリを生成できます。


この対訳セットは手動で生成することもありますが、ツールを活用して対訳セットの生成をオートメーション化することで翻訳メモリを効率よく生成することができます。このように過去の翻訳データを使って翻訳メモリを生成することで、効率よく翻訳することができます。

2. 用語集

用語集は、技術用語や専門用語などを、用語レベルで原語と訳語のセットにしたものです。製品の技術文書などの場合、たいていは特有の専門用語があります。それらが適切に翻訳されないと、結局校正の段階で手直しが発生して多くの工数がかかることがあります。そのため、製品用語が決まっている場合は、発注元から用語集を提供されることがあります。


用語集は、通常発注元の企業側で必要と考える用語をリストアップして作成するのですが、過去の翻訳文書があれば、それをもとに必要な用語をリストアップすることができます。


同類の製品群を翻訳する場合、専門用語は整合を取る必要があるため、特に類似製品の翻訳文書は役に立ちます。とはいっても用語のリストアップは骨の折れる作業であるため、弊社ではそのような作業をお手伝いしております。お客様からどのような基準でリストアップするのかをお聞きし、ヒアリング内容をもとに用語のリストアップを行います。このリストアップもツールを活用したオートメーション化が可能であり、効率よく用語集の作成を行うことが可能です。

上記の方法により、過去の翻訳文書を資産として有効活用でき、それらを役立てるための情報資産の構築を弊社は提案しております。

  翻訳用対訳集・用語集作成サービス | 翻訳会社川村インターナショナル 翻訳されたコンテンツや資料は、翻訳業務の効率化・コスト削減につながるデータ資産です。機械翻訳学習用の対訳データや、翻訳メモリ、用語集を作成することで、カスタム機械翻訳エンジンを作成したり、翻訳品質の安定化にも。データ資産活用により、エンドユーザーの満足度および自社ブランド力の向上に大きく貢献します。<お見積もり無料> 翻訳会社川村インターナショナル

おわりに

今回はOCR(光学的文字認識)形態素解析を活用した翻訳のためのデータ活用、翻訳資産の構築について取り上げました。また次回の「豆知識シリーズ」をお楽しみに!

川村インターナショナルの翻訳サービス

川村インターナショナルでは、IT、医療、法律、金融、特許などの分野に対応し、英訳をはじめ40言語以上の多言語の組み合わせをサポートしています。お客様のさまざまなニーズへ機械翻訳とポストエディット、従来の人による翻訳の使い分けをコンサルティングいたします。また、動画・音声データの編集や他言語ローカリゼーション対応など、言語に関連する様々なサービスをご提案いたします。

翻訳依頼を検討している、無料で見積もり依頼をしたい、不明点・疑問点がある、という方は以下のフォームからお気軽にお問合せください。


関連記事

KIマーケティングチーム

KIマーケティングチーム

川村インターナショナルWebマーケティングチームです。開催予定セミナーやイベントの告知、ブログ運営などを担当しています。

この記事がお役に立ったらシェアをお願いします!

ホワイトペーパーはこちら

JSAマーク
ISO17100
JSAT 007

認証範囲:
金融・経済・法務、IT、医療・医薬、電気 ・機械、航空宇宙分野の技術翻訳サービス 及びソフトウェアローカリゼーション
SGS_ISO-IEC_27001_with_ISMS-AC
※当社では、ISO17100に準拠した翻訳サービスを提供可能です。
準拠サービスをご希望の場合は、ご依頼時にお申し付けください。