2ヶ月前

ビデオ-RAG: 視覚的にアライメントされた検索補強型長尺ビデオ理解

Yongdong Luo; Xiawu Zheng; Xiao Yang; Guilin Li; Haojia Lin; Jinfa Huang; Jiayi Ji; Fei Chao; Jiebo Luo; Rongrong Ji
ビデオ-RAG: 視覚的にアライメントされた検索補強型長尺ビデオ理解
要約

既存の大規模ビデオ言語モデル(LVLM)は、コンテクストが限られているため、長時間のビデオを正確に理解することが困難です。この問題に対処するために、長コンテクスト対応のLVLMの微調整とGPTベースのエージェントの利用が有望な解決策として注目されています。しかし、LVLMの微調整には大量の高品質データと多大なGPUリソースが必要であり、GPTベースのエージェントはプロプライエタリモデル(例:GPT-4o)に依存します。本論文では、訓練を必要とせずコスト効果的なパイプラインである「ビデオ検索強化生成(Video-RAG)」を提案します。この方法は、視覚的に整合性のある補助テキストを使用して、モーダル間のアライメントを促進し、視覚コンテンツを超えた追加情報を提供します。具体的には、オープンソースの外部ツールを利用して純粋なビデオデータから視覚的に整合性のある情報を抽出(例:音声、光学文字認識、物体検出)し、抽出された情報を既存のLVLMに補助テキストとして組み込むことで、ビデオフレームやクエリとともにプラグアンドプレイ形式で利用可能にします。私たちが提案するVideo-RAGは以下の主要な利点を持っています:(i) 単一ターンでの検索により軽量で計算負荷が低く;(ii) 実装が容易で任意のLVLMとの互換性があり;(iii) 長時間ビデオ理解ベンチマーク(例:Video-MME, MLVU, LongVideoBench)において一貫した性能向上が見られます。特に、72Bモデルを利用することでGemini-1.5-ProやGPT-4oなどのプロプライエタリモデルよりも優れた性能を示しています。

ビデオ-RAG: 視覚的にアライメントされた検索補強型長尺ビデオ理解 | 最新論文 | HyperAI超神経