
要約
動画質問応答(Video Question Answering)は、動画と質問を同一の文脈で理解する必要がある挑戦的なタスクである。特に、将来の出来事の予測や反事実的な出来事の説明といった推論を要する質問の場合、明示的に提示されていない知識が必要となるため、その難易度はさらに高まる。従来の手法は、動画と言語特徴の粗い統合(coarse-grained fusion)に依存しており、時間的情報を十分に考慮していない。これを解決するために、本研究では動画と質問の時間的文脈を学習する新しい視覚-テキスト統合モジュールを提案する。本モジュールは、質問トークンを動画の時間軸に沿って拡張し、動画特徴と融合することで、局所的およびグローバルな文脈を含む新たな表現を生成する。提案手法は、MSVD-QA、NExT-QA、Causal-VidQA、AGQA-2.0 の4つのVideoQAデータセットにおいて評価された。