
大規模マルチモーダルモデルのビデオ質問応答タスクにおける計算およびメモリの制約に対処するために、最近のいくつかの手法では、各フレームからテキスト表現(例えばキャプション)を抽出し、それらを最終的な応答を生成するための大規模言語モデル(LLM)に供給しています。しかし、この方法では、LLMが視覚情報を参照できないだけでなく、近接するフレームの反復的なテキスト説明を処理しなければならないことがしばしばあります。これらの欠点を解決するために、本論文ではVidCtxという新しい学習不要のビデオQAフレームワークを提案します。VidCtxは入力フレームからの視覚情報と他のフレームのテキスト説明(コンテクスト)を統合します。具体的には、提案されたフレームワークでは、事前学習済みの大規模マルチモーダルモデル(LMM)に定期的に質問に応じたビデオフレームのテキスト説明(キャプション)を抽出するように指示します。これらの説明は、a) 特定のフレーム、b) 質問、c) 適切なフレームのコンテクスト/キャプションが入力として与えられたときに、同じLMMが質問に対する回答を行う際のコンテクストとして使用されます。冗長な情報を避けるために、遠隔にあるフレームの説明を選択してコンテクストとしました。最後に、単純かつ効果的な最大値プーリング機構を使用してフレームレベルでの決定を集約します。この手法により、モデルはビデオの関連部分に焦点を当てることができるとともに、大量のフレームにも対応できるようになります。実験結果は、VidCtxがオープンモデルに基づくアプローチの中で3つの公開ビデオQAベンチマーク(NExT-QA, IntentQA, STAR)で競争力のある性能を達成していることを示しています。当該コードはhttps://github.com/IDT-ITI/VidCtx で公開されています。