
要約
本論文では、長時間のビデオにおける密なイベントに対する質問応答(Dense Video Event Question Answering)という新しい課題を提示します。この課題は、長時間のビデオ内で複数のイベントが発生する期間について忠実に理解し、推論を行うことを求めます。研究を促進するために、私たちは DeVE-QA というデータセットを構築しました。このデータセットには、10.6K の長時間ビデオに含まれる 26K のイベントに関する 78K の質問が収録されています。ベンチマーク評価の結果、最先端のマルチモーダル言語モデル(MLLMs)は DeVE-QA において苦戦することが示されました。これを改善するために、私たちは DeVi という新しい学習不要の MLLM アプローチを提案します。DeVi は階層的なキャプション生成モジュール、時系列イベント記憶モジュール、自己一貫性確認モジュールから構成されており、それぞれ長時間のビデオ内の密なイベントを検出、文脈化および記憶、そして関連するビデオシーンへの根拠付けを行います。多数の実験結果から、DeVi は密なイベントに対する質問応答と関連するビデオシーンへの根拠付けにおいて優れていることが確認されました。既存の MLLMs と比較して、DeVE-QA では G(round)QA 精度で 4.8% の向上が見られ、NExT-GQA では同精度で 2.1% の向上が見られました。データとコードは https://github.com/QHUni/DeVE-QA で公開されています。