2ヶ月前
SyncVSR: エンドツーエンドのクロスモーダル音声トークン同期を用いたデータ効率的な視覚的音声認識
Ahn, Young Jin ; Park, Jungwoo ; Park, Sangha ; Choi, Jonghyun ; Kim, Kee-Eung

要約
視覚音声認識(VSR)は、コンピュータビジョンと音声認識の交差点に位置し、視覚的な手がかりから話された内容を解釈することを目指しています。VSRにおける主要な課題の一つは、異なる音素を表すにもかかわらず視覚的に類似した唇の動き(ホモフォン)の存在です。これまでのアプローチでは、視覚と聴覚の意味論を合わせることで細かいビゼームを区別しようと試みられてきましたが、しばしば完全な同期には至らなかったのが現状でした。これを解決するため、本研究ではSyncVSRというエンドツーエンド学習フレームワークを提案します。SyncVSRは量子化された音声データを使用してフレームレベルでのクロスモーダル監督を行います。視覚表現と音響データを同期させる射影層を統合することで、エンコーダーは非自己回帰的な方法でビデオシーケンスから離散的な音声トークンを生成するよう学習します。SyncVSRはタスク、言語、モダリティ間で多様性を持ちつつも、順方向パスにコストがかかります。我々の実証評価では、SyncVSRが最先端の結果を達成するとともに、最大で9倍のデータ使用量削減も示されました。