8ヶ月前

マルチモーダル

ビデオ理解

マルチモーダル

コンピュータビジョン

Jeong Hun Yeo* Seunghee Han* Minsu Kim Yong Man Ro†

概要

視覚音声処理において、文脈モデリング能力は唇の動きが曖昧な性質を持つため、最も重要な要件の一つです。例えば、ホモフォン（homophenes）、同じ唇の動きを共有しながら異なる音を生成する単語は、文脈を考慮することで区別することができます。本論文では、文脈モデリング能力を最大限に引き出すために大規模言語モデル（LLMs）の圧倒的な力を活用した新しいフレームワーク、すなわち VSP-LLM を提案します。具体的には、VSP-LLM は視覚音声認識と翻訳の複数タスクを実行するように設計されており、与えられた指示によってタスクの種類が制御されます。入力ビデオは自己監督型視覚音声モデルを使用して LLM の入力潜在空間にマッピングされます。入力フレームに冗長な情報があるという事実に着目し、視覚音声単位を使用して埋め込みされた視覚特徴量を削減する新しい重複除去方法を提案します。提案された重複除去と低ランク適応（Low Rank Adaptation, LoRA）により、VSP-LLM は計算効率的に学習できます。翻訳データセットである MuAViC ベンチマークにおいて、30時間のラベル付きデータで学習した VSP-LLM が最近の433時間のデータで学習したモデルよりも効果的に唇の動きを翻訳できることが示されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

ビデオ理解

マルチモーダル

コンピュータビジョン

Jeong Hun Yeo* Seunghee Han* Minsu Kim Yong Man Ro†

概要

視覚音声処理において、文脈モデリング能力は唇の動きが曖昧な性質を持つため、最も重要な要件の一つです。例えば、ホモフォン（homophenes）、同じ唇の動きを共有しながら異なる音を生成する単語は、文脈を考慮することで区別することができます。本論文では、文脈モデリング能力を最大限に引き出すために大規模言語モデル（LLMs）の圧倒的な力を活用した新しいフレームワーク、すなわち VSP-LLM を提案します。具体的には、VSP-LLM は視覚音声認識と翻訳の複数タスクを実行するように設計されており、与えられた指示によってタスクの種類が制御されます。入力ビデオは自己監督型視覚音声モデルを使用して LLM の入力潜在空間にマッピングされます。入力フレームに冗長な情報があるという事実に着目し、視覚音声単位を使用して埋め込みされた視覚特徴量を削減する新しい重複除去方法を提案します。提案された重複除去と低ランク適応（Low Rank Adaptation, LoRA）により、VSP-LLM は計算効率的に学習できます。翻訳データセットである MuAViC ベンチマークにおいて、30時間のラベル付きデータで学習した VSP-LLM が最近の433時間のデータで学習したモデルよりも効果的に唇の動きを翻訳できることが示されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

視覚音声と言語が出会う場所：効率的で文脈に配慮した視覚音声処理のVSP-LLMフレームワーク | 記事 | HyperAI超神経