DXの第一歩！社内データのアノテーション

2023-05-17 05:00（更新：2023-05-17 06:15）KIマーケティングチーム多言語翻訳

翻訳や関連する資料データについて、こんなことでお悩みの方はいらっしゃいませんか？

社内で翻訳を行っているが、貯まってきた翻訳資産を活用できていない
翻訳コスト削減のため機械翻訳導入に興味がある
紙データのデジタルデータへの変換が追い付いていない。検索や集計、分析を行えるように整備したい

データを見える化することは業務プロセスの見直しにつながります。まずは社内に眠っているデータをアノテーションし、活用できる形に変えてみませんか？

目次[非表示]

1.アノテーションとは
2.翻訳会社が実施するアノテーション
3.機械翻訳とアノテーション

3.1.① 用語適用
3.2.② 追加学習

4.人手翻訳で使用する用語集・対訳集とは異なる？
5.紙ファイルの電子データ化

アノテーションとは

アノテーション (Annotation) は、「注釈」という意味の英単語です。プログラミング等、様々な分野で使用される言葉ですが、AI分野では「テキスト、画像、動画などのデータにラベリングを行うこと（メタデータ※付与）」という意味で用いられます。コンピュータに分かるようにデータを整備し、データ間の紐づけができるようになることで、コンテンツの検索、分類、分析が可能になります。

→→

※メタデータ: そのデータがどんなデータなのかを説明するデータ。データ作成時に自動的に付与されるメタデータもあるが、データの使用目的に応じてユーザーが付与する場合もある。
例) 写真データの場合、ファイル名、ファイル作成日付やファイル作成者などがメタデータにあたる。

翻訳会社が実施するアノテーション

翻訳会社がアノテーションを行うのは、端的に言えば翻訳の品質を少しでも高めるためです。翻訳品質向上のためには、最初にお客様と翻訳会社間で仕様※1をしっかり取り決めることが重要ですが、この仕様のうちアノテーションの成果物にあたるのが用語集、対訳集です。

用語集・対訳集は、専門用語や社内独自の用語を正確に訳したり、訳語を統一したりするために必須の資料です。予算・納期、品質、データの利用目的に応じ、専用のツールを用いてアノテーションを行うことで、社内データから用語集・対訳集を作成することができます。質の良い用語集・対訳集は翻訳コストや、機械翻訳を行う際のポストエディットのコストを下げることもできます。

すでにCATツールを使用しており、翻訳メモリをお持ちの場合は、そのデータをそのまま対訳集として使用できます。また、Word などの対訳ファイルをお持ちの場合は、ツールを用いて対訳集として使用できるよう編集することができます。単言語コーパス※2からの単言語用語集の作成も可能です。

※1 仕様：納期、金額、分量、テキスト情報、納品ファイル形式、参照資料（用語集/対訳集、翻訳メモリ、スタイルガイド）など

※2 コーパス：言語のデータベース。書き言葉や話し言葉の資料を体系的に収集し、情報を付与したもの。単言語コーパスは１言語のみのコーパス。

機械翻訳とアノテーション

アノテーションにより、機械翻訳エンジンのための学習データを作成することもできます。機械翻訳エンジンはそのままで使用すると誤訳や訳抜けが発生する可能性があるため、カスタマイズすることで格段に翻訳の精度が上がります。

機械翻訳をカスタマイズするには、次の2つの方法があります。

① 用語適用

原語と訳語を対応させた用語集を適用させると、文に含まれる単語が必ず用語集に掲載されている単語になります。専門用語などが正しく訳せるようになります。

② 追加学習

対訳集を機械翻訳エンジンに学習させると、機械翻訳後の訳文が対訳集にある訳文に近くなります。学習データ（用語集・対訳集）を適用することで、機械翻訳エンジンが自ら翻訳ルールを学習し、翻訳の質を上げることが可能になります。ただし、学習データの作成には気を付けるべき点があります。

人手翻訳で使用する用語集・対訳集とは異なる？

人手翻訳では、文脈に合わせてどの用語を適用するか、柔軟に判断することができます。語形変化にも対応できますし、一単語に複数の訳がある場合は文脈に合わせて訳語を選択することもできます。

一方で機械翻訳では、単語の意味や文脈は考慮されないため、使用する用語集の原語と訳語は一対一である必要があります。機械翻訳に適用できる用語は、固有名詞、専門用語、業界用語など語形が変化せず、訳語が文脈に依存しない用語などです。

このように、人手翻訳・機械翻訳のどちらを行うかで、用語集の作り分けが必要になります。

紙ファイルの電子データ化

アノテーション前の処理として、手書き文字や帳票等をスキャンし、OCR (Optical Character Reader/Recognition、光学的文字読込/認識) ツールを使用して文字データに変換します。その後、変換したデータから用語や情報を抽出してアノテーションを行い、上記の用語集・対訳集を作成することもできます。

上記の処理で、社内データのペーパーレス化を進めることができます。また、データの検索・分析が容易になることによる業務効率化も期待できます。