2ヶ月前
フレームが多すぎ、すべてが有用ではない:長尺ビデオのQAに対する効率的な戦略
Jongwoo Park; Kanchana Ranasinghe; Kumara Kahatapitiya; Wonjeong Ryu; Donghyun Kim; Michael S. Ryoo

要約
長期にわたるビデオは、時間的に広範囲にわたるため、情報の冗長性が高く、多くの異なるイベントやエンティティを含み、それらはしばしば緩い関連性しか持たない。したがって、長期ビデオに対する質問応答(Long-Form Video Question Answering: LVQA)を行う際には、正しい回答を生成するために必要なすべての情報が、多くの場合、少数のフレーム内に含まれている。最近の研究では、大規模言語モデル(Large Language Models: LLMs)を使用してLVQAベンチマークで優れた性能を達成しており、視覚言語モデル(Vision Language Models: VLMs)を用いてビデオ内のすべての視覚的なコンテンツを自然言語に変換している。しかし、このようなVLMsは通常、長いビデオから均一にサンプリングされた大量のフレームを独立してキャプション付けするため、効率的ではなく冗長性が多い。これらの決定選択肢について疑問を持ちつつ、私たちはこの冗長性を大幅に削減できる最適なキーフレーム選択戦略を探求し、階層的キーフレームセレクター(Hierarchical Keyframe Selector)を開発した。提案するフレームワークLVNetは、EgoSchema, NExT-QA, IntentQAという3つのベンチマークLVQAデータセットにおいて同等のキャプションスケールで最先端の性能を達成するとともに、VideoMMEにおいても最大1時間までのビデオに対して優れた性能を示している。当該コードは公開される予定であり、https://github.com/jongwoopark7978/LVNet から入手可能である。