2ヶ月前
視覚音声と言語が出会う場所:効率的で文脈に配慮した視覚音声処理のVSP-LLMフレームワーク
Yeo, Jeong Hun ; Han, Seunghee ; Kim, Minsu ; Ro, Yong Man

要約
視覚音声処理において、文脈モデリング能力は唇の動きが曖昧な性質を持つため、最も重要な要件の一つです。例えば、ホモフォン(homophenes)、同じ唇の動きを共有しながら異なる音を生成する単語は、文脈を考慮することで区別することができます。本論文では、文脈モデリング能力を最大限に引き出すために大規模言語モデル(LLMs)の圧倒的な力を活用した新しいフレームワーク、すなわち VSP-LLM を提案します。具体的には、VSP-LLM は視覚音声認識と翻訳の複数タスクを実行するように設計されており、与えられた指示によってタスクの種類が制御されます。入力ビデオは自己監督型視覚音声モデルを使用して LLM の入力潜在空間にマッピングされます。入力フレームに冗長な情報があるという事実に着目し、視覚音声単位を使用して埋め込みされた視覚特徴量を削減する新しい重複除去方法を提案します。提案された重複除去と低ランク適応(Low Rank Adaptation, LoRA)により、VSP-LLM は計算効率的に学習できます。翻訳データセットである MuAViC ベンチマークにおいて、30時間のラベル付きデータで学習した VSP-LLM が最近の433時間のデータで学習したモデルよりも効果的に唇の動きを翻訳できることが示されています。