2ヶ月前

Whisper-Flamingo: 音声と視覚特徴を統合した音声視覚認識および翻訳のためのWhisper

Andrew Rouditchenko; Yuan Gong; Samuel Thomas; Leonid Karlinsky; Hilde Kuehne; Rogerio Feris; James Glass
Whisper-Flamingo: 音声と視覚特徴を統合した音声視覚認識および翻訳のためのWhisper
要約

音声視覚音声認識(Audio-Visual Speech Recognition: AVSR)は、ノイズ環境下での性能向上のために、唇に基づくビデオを使用します。ビデオの取得が音声よりも困難であるため、AVSRモデルのビデオ学習データは通常、数千時間に限定されています。これに対し、Whisperなどの音声モデルは数十万時間のデータで学習され、より優れた音声からテキストへのデコーダーを学習します。この大きな学習データの差異が、Whisperをビデオ入力に対応させる動機となっています。Flamingoが言語モデルに視覚的な特徴を注入する手法に着想を得て、私たちはゲート付きクロスアテンションを使用して視覚的な特徴をWhisperの音声認識および翻訳モデルに統合するWhisper-Flamingoを提案します。私たちのモデルはLRS3において最先端のASR WER(0.68%)とAVSR WER(0.76%)、そしてLRS2において最先端のASR WER(1.3%)とAVSR WER(1.4%)を達成しました。ノイズ条件下では、音声視覚Whisper-Flamingoが単独の音声のみを使用したWhisperよりも英語の音声認識と6つの言語に対するEn-X翻訳で優れた性能を示しています。さらに、Whisper-Flamingoは多用途であり、一組のパラメータでこれらのすべてのタスクを実行できますが、従来の方法では各言語ごとに別々に学習が必要でした。

Whisper-Flamingo: 音声と視覚特徴を統合した音声視覚認識および翻訳のためのWhisper | 最新論文 | HyperAI超神経