HyperAIHyperAI

Command Palette

Search for a command to run...

BIMBA:長距離動画質問応答のための選択的スキャン圧縮

Md Mohaiminul Islam Tushar Nagarajan Huiyu Wang Gedas Bertasius Lorenzo Torresani

概要

長時間動画におけるビデオ質問応答(VQA)は、冗長なフレームが多く含まれる中から関連情報を抽出し、長距離の依存関係をモデル化するという主要な課題に直面している。自己注意機構(self-attention)はシーケンスモデリングの一般的な解決策を提供するが、長時間動画に含まれる膨大な空間時系列トークン(spatiotemporal tokens)に対して適用すると、計算コストが著しく増大するという問題がある。従来の多数の手法は、計算負荷を低減するために圧縮戦略に依存しており、例えばスパースなフレームサンプリングによる入力長の短縮や、空間時系列プーリングによる大規模言語モデル(LLM)への入力シーケンスの圧縮が行われている。しかし、これらの単純なアプローチは冗長な情報を過剰に表現する傾向があり、重要なイベントや急速に発生する空間時系列パターンを逃すことが頻繁に起こる。本研究では、長時間動画処理に効率的である状態空間モデル「BIMBA」を提案する。本モデルは、選択的スキャン(selective scan)アルゴリズムを活用し、高次元の動画情報から重要な情報を効果的に選択し、処理効率の高いLLM向けに低次元のトークン列に変換する能力を獲得する。広範な実験により、BIMBAが複数の長時間VQAベンチマーク、すなわちPerceptionTest、NExT-QA、EgoSchema、VNBench、LongVideoBench、Video-MMEにおいて最先端の精度を達成することが実証された。コードおよびモデルは、https://sites.google.com/view/bimba-mllm にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
BIMBA:長距離動画質問応答のための選択的スキャン圧縮 | 記事 | HyperAI超神経