9日前

長期間動画理解を 위한テキスト条件付きリサンプラー

Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
長期間動画理解を 위한テキスト条件付きリサンプラー
要約

本稿では、事前学習済みかつ固定された視覚エンコーダと大規模言語モデル(LLM)を用いて、長時間の動画シーケンスを処理するタスクに適したテキスト条件付き動画リサンプリングモジュール(TCR)を提案する。TCRは、テキスト条件に基づいて動画から関連する視覚特徴を局所化し、その特徴をLLMに提供してテキスト応答を生成する。軽量な設計とクロスアテンションの活用により、最適化された実装を用いなくても、通常のアテンション構造で100フレーム以上を一度に処理できる。本研究の主な貢献は以下の通りである:(i) タスク条件付きで長時間動画を処理可能なTransformerベースのサンプリングアーキテクチャを設計するとともに、事前学習済みの視覚モデルと言語モデルの間を橋渡しするための訓練手法を提案した;(ii) 長時間動画の認識が利点をもたらす可能性のあるタスクを同定した;(iii) NextQA、EgoSchema、EGO4D-LTAチャレンジを含む多様な評価タスクにおいて、TCRの有効性を実証的に検証した。

長期間動画理解を 위한テキスト条件付きリサンプラー | 最新論文 | HyperAI超神経