【2024年最新版】破壊的テクノロジー！！字幕翻訳の革命

2018-10-24 03:24（更新：2024-01-29 08:16）KIマーケティングチーム動画翻訳

1.産業翻訳における字幕翻訳とは？
2.音声自動認識技術の発展
3.革新的な音声自動認識WEBサイト、その長所と短所

3.1.YouTube
3.2.Watson

4.必要な前処理
5.まとめ

産業翻訳における字幕翻訳とは？

「字幕翻訳」といえば、映画やドラマの字幕を思い浮かべる方が多いと思いますが、
動画の字幕はこれにとどまりません。
産業翻訳を取り扱う翻訳会社でも、様々な分野で動画の字幕翻訳に対応しています。マーケティングコンテンツ、企業のプレゼンテーション、製品説明動画、大学の講義、オンラインコース、インバウンドコンテンツなど多岐にわたる動画コンテンツが対象です。

そしてさらに、コロナ禍において会場でのイベントやセミナーの開催が制約されたことがきっかけとなり、IT業界に限らず多くの業界でオンラインイベントやウェビナーの需要が急増しました。同時に、字幕やナレーションに関する問い合わせも目に見えて増えました。

動画の音声を文字起こししてから翻訳を行い、字幕として動画上に表示するところまで対応する字幕翻訳案件。
従来は、以下のようにいくつものプロセスを経て翻訳データを作成していました。

1．人手による文字起こし
2．テキストデータのレビュー
3．翻訳
4．翻訳チェック
5．文章と表示時間の調整

翻訳から字幕作成、機密性の高いeラーニング翻訳も。マーケティングや営業活動、社内外のトレーニングなど、さまざまな面で活動に制約がかかる現在、動画コンテンツの活用が注目を集めています。川村インターナショナルは動画翻訳の実績も多く、翻訳から字幕作成までトータルでサポート。貴社のお悩みを解決します。翻訳会社川村インターナショナル

音声自動認識技術の発展

音声自動認識技術の発展により、機械的に文字起こし処理ができるWEBサイトやツールが開発されました。

このようなWEBサイトを使用して音声を文字起こしすることによって、専門家の力を借りることなく、音声自動認識により起こされた文章の社内レビューにより、プロセスの効率化とコスト・作業時間の削減が可能になりました。

ただし、音声認識の精度が向上しているとはいえ、まだまだ対応しきれない課題も残ります。録音環境や話者の訛りなど精度に影響を及ぼす要素は多く、コストと時間をかけた従来のプロセスの方が依然として精度は高いというのが現状です。

ここでは、簡単に使用できる音声自動認識WEBサイトと主要な翻訳前処理をご紹介します。（※今回ご紹介するのは、英語音声を日本語の字幕にするケースです。）

革新的な音声自動認識WEBサイト、その長所と短所

YouTube

Googleが提供する世界で一番有名な動画サイトです。皆さん動画を視聴されることが多いと思いますが、アップした動画に対して自動で文字起こしを行う機能があることも広く周知されてきました。アカウントを作成すればこの機能を使用することができるのです。

○YouTubeの長所

YouTubeでは、動画の自動文字起こしを行うと同時に、字幕ファイル（SRTやSBVフォーマット）を生成することができます。これにより、話者の音声と対応するテキストの表示時間を編集する手間が省かれ、効率的な作業が可能です。また、比較的文字起こしの精度が高く、文字起こしにかかる時間も短縮されています。

特定の話者による影響があるものの、修正がほとんど必要ないセンテンスを提供することがあり、その精度は年々向上しているように見受けられます。技術の進歩により、YouTubeの文字起こし機能は使いやすく、信頼性が増していると言えます。

○YouTubeの短所

YouTubeの短所の一つとして、認識される音声の範囲が限定的である点が挙げられます。例えば、発音やしゃべり方にクセがある場合、それが英語として正確に認識されないことがあり、その結果、文字起こしが一切行われない場合があります。一般的に英語の発音があまり得意でない日本人の英語も、依然として認識されない場合があります。
また、英語ネイティブでも判別が難しいフランス訛りの英語が、なぜかドイツ語として認識される事例もあり、まだまだ改善の余地が残されています。
ただし、先述したようにその精度は日進月歩で、将来的にはより高いサービス品質が期待できるでしょう。

Watson

IBMがWEBサイト上で提供しているAIを使用したサービスで、音声自動認識を利用して文字起こしを行うことができます。

○Watsonの長所

認識される音声の範囲が広く、クセや訛りが強い場合でも文字に起こしてくれます。上記YouTube上で文字起こしがされなかった場合でも、Watsonを利用して文字起こしできる場合があります。また、文頭を認識するため、文頭の文字を大文字にして起こしてくれます。

○Watsonの短所

認識される音声の範囲は広いですが、その代わりに文字起こしされたテキストの精度はあまり高くない傾向があります。やや強引に認識するため、発音が悪い場合は全く違う文字を起こす場合があり、センテンスをほぼ全て修正する必要が生じることもあります。
また、字幕ファイルを作成することはできないため、文字起こしがされた後、音声と字幕が表示されるタイミングを手動で調整する必要があります。

必要な前処理

このように自動音声認識技術を活用することで、工数の大幅な削減が可能になりました。それでも、字幕翻訳を完成させるためには人の手を入れて不足部分を補う必要があります。

誤認識された単語の修正

機械の精度の限界や元々の音声の発音の不備がある場合、誤認識された単語の修正が必要になります。この時に、人が音声を聞き、手動で単語を修正する必要が発生します。

よく誤認識される単語としては、

（正）Problem → （誤）Program

（正）Class → （誤）Plus

が挙げられます。音声にするとたしかに似ていますね。

不要な単語の削除

人手による文字起こしでは、”you know”、”umm”、”Okey”等の翻訳に不要な間投詞を起こさずに作業を行います。しかし、自動認識では不要な間投詞も文字に起こされるため、人手による削除が必要になります。

数字の書き起こし

基本的に数字はアラビア数字に統一しますが、名詞として使用されている“one”などは、スペルアウトするなどの表記分けが必要になります。自動認識による文字起こしでは、これらの区別が正確になされないため、手動でのチェックと修正が必要です。

カンマの挿入

翻訳作業においてカンマの位置は重要です。カンマ一つで文の意味が大きく変化してしまう場合があります。自動認識では、文脈を考慮してカンマが挿入されない場合があるため、翻訳作業を正確にするために、人手によって文書の区切りにカンマを入れる必要があります。

まとめ

まだまだ人手による前処理が必要な字幕翻訳ですが、従来のプロセスに比べれば、上記WEBサイトの技術を活用することで効率的に対応できるようになっています。さらに、認識の精度も年々向上しており、修正作業の工程も以前より短縮されるようになりました。
この分野の技術の発展は著しく、近い将来、手動での修正がほぼ不要となる音声自動認識技術の登場が期待されます。