
動画質問応答(Video Question Answering, VideoQA)は、エージェントが豊富な動画コンテンツを理解し、空間的・時間的推論を行う能力を要求する困難なタスクである。しかし、従来のグラフベースの手法は、複数ステップにわたる推論を十分に実行できず、VideoQAの2つの重要な性質を無視している。第一に、同一の動画に対しても、質問によっては関係性推論により答えを導くために必要な動画クリップやオブジェクトの量が異なる場合がある。第二に、推論過程において、外見特徴と運動特徴の間には複雑な相互依存関係が存在し、これらは互いに相補的かつ相関的である。これらの観察に基づき、我々はエンド・ツー・エンドで動画を推論可能な「二重視覚グラフ推論ユニット(Dual-Visual Graph Reasoning Unit, DualVGR)」を提案する。本研究の第一の貢献は、複数回の推論サイクルを通じて不要な視覚特徴をフィルタリング可能な説明可能(explainable)な「クエリペナルティモジュール(Query Punishment Module)」の設計である。第二の貢献は、外見特徴と運動特徴の関係を捉えるための「動画ベースのマルチビュー・グラフアテンションネットワーク(Video-based Multi-view Graph Attention Network)」の提案である。提案手法であるDualVGRネットワークは、ベンチマークデータセットMSVD-QAおよびSVQAにおいて最先端(state-of-the-art)の性能を達成し、MSRVTT-QAデータセットにおいても競争力のある結果を示した。本研究のコードは、https://github.com/MMIR/DualVGR-VideoQA にて公開されている。