2ヶ月前

長距離ビデオ質問応答のための単純なLLMフレームワーク

Ce Zhang; Taixi Lu; Md Mohaiminul Islam; Ziyang Wang; Shoubin Yu; Mohit Bansal; Gedas Bertasius
長距離ビデオ質問応答のための単純なLLMフレームワーク
要約

私たちは LLoVi(ローロビ)を提案します。これは、長尺映像の質問応答(Long-Range Video Question-Answering: LVQA)に向けた言語ベースのフレームワークです。従来の長尺映像理解手法とは異なり、当手法は高コストかつ専門的な長尺映像モデリング設計(例:メモリキュー、状態空間層など)を必要とせず、フレーム/クリップレベルの視覚キャプショナー(例:BLIP2、LaViLa、LLaVA)と大規模言語モデル(GPT-3.5、GPT-4)を組み合わせることで、シンプルながら驚くほど効果的なLVQAフレームワークを実現しています。具体的には、LVQAの短距離および長距離モデリング要素を2つの段階に分解しました。まず、長い入力映像から濃密にサンプリングされた短い映像クリップ(0.5秒〜8秒の長さ)に対して、短期間の視覚キャプショナーを使用してテキスト説明を生成します。その後、大規模言語モデルが濃密に抽出された短期間のキャプションを集約し、全体の映像を理解するために必要な長期的な時間的推論を行います。当フレームワークがなぜこれほど効果的であるかを分析するため、システムのさまざまな構成要素について詳細な評価を行いました。経験的な分析結果は、視覚キャプショナーと大規模言語モデルの選択が良好なLVQA性能にとって極めて重要であることを示しています。さらに、大規模言語モデルに対してまず雑音のある短期間視覚キャプションを要約し、次に入力された質問に答えるように指示する専門的なプロンプトを使用することで、LVQA性能が大幅に向上することを示しました。EgoSchema という非常に長い形式の映像質問応答ベンチマークにおいて、当方法は50.3% の精度を達成し、以前の最良手法よりも18.1% (絶対値)優れています。また、NeXT-QA および IntentQA においても当アプローチは以前の最先端手法よりも4.1% および3.1% 優れた性能を発揮しています。さらに LLoVi を基盤付き LVQA にも拡張し、NeXT-GQA データセットにおいてすべての先行手法を超える性能を達成しました。コードは https://github.com/CeeZh/LLoVi で公開されます。

長距離ビデオ質問応答のための単純なLLMフレームワーク | 最新論文 | HyperAI超神経