9日前
BIMBA:長距離動画質問応答のための選択的スキャン圧縮
Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani

要約
長時間動画におけるビデオ質問応答(VQA)は、冗長なフレームが多く含まれる中から関連情報を抽出し、長距離の依存関係をモデル化するという主要な課題に直面している。自己注意機構(self-attention)はシーケンスモデリングの一般的な解決策を提供するが、長時間動画に含まれる膨大な空間時系列トークン(spatiotemporal tokens)に対して適用すると、計算コストが著しく増大するという問題がある。従来の多数の手法は、計算負荷を低減するために圧縮戦略に依存しており、例えばスパースなフレームサンプリングによる入力長の短縮や、空間時系列プーリングによる大規模言語モデル(LLM)への入力シーケンスの圧縮が行われている。しかし、これらの単純なアプローチは冗長な情報を過剰に表現する傾向があり、重要なイベントや急速に発生する空間時系列パターンを逃すことが頻繁に起こる。本研究では、長時間動画処理に効率的である状態空間モデル「BIMBA」を提案する。本モデルは、選択的スキャン(selective scan)アルゴリズムを活用し、高次元の動画情報から重要な情報を効果的に選択し、処理効率の高いLLM向けに低次元のトークン列に変換する能力を獲得する。広範な実験により、BIMBAが複数の長時間VQAベンチマーク、すなわちPerceptionTest、NExT-QA、EgoSchema、VNBench、LongVideoBench、Video-MMEにおいて最先端の精度を達成することが実証された。コードおよびモデルは、https://sites.google.com/view/bimba-mllm にて公開されている。