
ビデオ質問応答(VideoQA)は、エージェントが人間の日常行動を理解する能力を評価する上で重要なツールとして注目されている。近年、大規模な視覚言語モデルは多数のマルチモーダルタスクにおいて優れた成果を上げているが、複数の人物-オブジェクトインタラクションイベントを含む複雑な状況における動画理解と推論は依然として困難な課題である。一方、人間は一連のエピソード記憶をアーキテクチャとして利用することで、質問に関連するキーモーメントを迅速に特定し、効果的に推論を行うことができる。この人間の優れた推論戦略を模倣するために、本研究では「Glance-Focusモデル」を提案する。従来のアプローチとして、アクション検出モデルを用いてキーメモリとしてのアクションを予測する方法が考えられるが、こうした閉じた語彙(vocabulary)に基づくアクションは、さまざまな動画ドメインへの汎用性に欠ける。そこで、本研究では、観察段階(glancing stage)において、動的イベントメモリを生成するエンコーダ-デコーダモデルを学習する。また、教師あり二部マッチングによるメモリ取得に加え、イベントアノテーションに依存しない非教師ありメモリ生成手法を新たに設計することで、アノテーション依存性を軽減した。次に、注目段階(focusing stage)において、これらのイベントメモリを橋渡しとして、高レベルのイベント概念と低レベルの長大な動画コンテンツとの間の関連性を構築する。質問が与えられた際、モデルはまず生成されたキーエンタインメモリに注目し、設計した多段階クロスアテンション機構により、最も関連性の高いモーメントに焦点を当てる。本研究では、STAR、EgoTaskQA、AGQA、NExT-QAの4つのマルチイベントビデオQAベンチマークで広範な実験を実施した。その結果、提案モデルは、複数の困難な推論タスクにおいて、現在の大規模モデルを上回る最先端の性能を達成した。コードおよびモデルは、https://github.com/ByZ0e/Glance-Focus にて公開されている。