
要約
私たちは、ビデオ-LLaMAというマルチモーダルフレームワークを提案します。このフレームワークは、大規模言語モデル(LLMs)にビデオ内の視覚および聴覚コンテンツの理解能力を付与します。ビデオ-LLaMAは、事前学習済みの視覚エンコーダと音声エンコーダ、ならびに凍結されたLLMsからクロスモーダル訓練を開始します。これまでの研究では、視覚信号または音声信号のみを処理するためのLLMsの補完が行われていましたが、ビデオ-LLaMAは以下の2つの課題に取り組むことでビデオ理解を可能にします:(1) 視覚シーンにおける時間的な変化の捕捉、(2) 音声-視覚信号の統合。最初の課題に対処するために、私たちは事前学習済み画像エンコーダをビデオエンコーダに組み込むためのVideo Q-formerを提案し、ビデオ-テキスト生成タスクを導入してビデオ言語対応関係を学習します。2つ目の課題については、複数モーダルをアラインメントする汎用埋め込みモデルであるImageBindを使用し、事前学習済み音声エンコーダとして機能させます。さらに、ImageBind上にAudio Q-formerを導入して、LLMモジュールに対する合理的な聴覚クエリ埋め込みを学習します。視覚エンコーダと音声エンコーダの出力をLLMの埋め込み空間と合わせるためには、まず大量のビデオ/画像キャプションペアでビデオ-LLaMAを学習させます。その後、中程度の量ですが高品質な視覚指示データセットでモデルを微調整します。私たちはビデオ-LLaMAがビデオコンテンツを受け入れて理解し、その中で提示される視覚情報と聴覚情報を基にして意味のある応答を生成する能力を持つことを確認しました。