2ヶ月前
LongVU: 長時間ビデオ-言語理解のための時空間適応圧縮
Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra

要約
マルチモーダル大規模言語モデル(MLLMs)は、ビデオコンテンツの理解と分析において有望な進展を示しています。しかし、長いビデオの処理は、LLMのコンテキストサイズによって制約され、依然として大きな課題となっています。この制限に対処するため、我々はLongVUという時空間適応圧縮メカニズムを提案します。このメカニズムは、長時間ビデオの視覚的な詳細を保ちながら、ビデオトークンの数を削減します。我々のアイデアは、クロスモーダルクエリとフレーム間依存関係を利用して、ビデオ内の時間的および空間的な冗長性を適応的に削減することに基づいています。具体的には、DINOv2特徴量を使用して高類似度を持つ余分なフレームを除去します。その後、テキストガイダンスによるクロスモーダルクエリを利用して選択的なフレーム特徴量削減を行います。さらに、フレーム間の時間的依存関係に基づいて空間トークン削減を行います。我々の適応圧縮戦略は、与えられたコンテキスト長内で視覚情報の損失が少ないまま多くのフレームを効果的に処理できます。LongVUは様々なビデオ理解ベンチマークで既存の方法を一貫して上回り、特にVideoMMEやMLVUなどの1時間以上のビデオ理解タスクにおいて優れた性能を発揮します。軽量なLLMを使用した場合でも、LongVUは小型化しつつ最先端のビデオ理解性能を持った状態で効果的に拡張できます。