
要約
動画質問応答(VideoQA)分野において、著しい進展が見られつつあるが、現在の手法はフレーム間の因果的・時系列的推論を要する質問に対しては依然として不足している。これは、運動情報の表現が不正確であることに起因すると考えられる。本研究では、以下の三つの独自性を持つ「アクション時系列モデリング(Action Temporality Modeling, ATM)」を提案する。第一に、光流(optical flow)の見直しを行い、光流が長期的な時系列推論を捉える上で有効であることを実証する。第二に、アクション中心の対照学習(contrastive learning)により視覚・テキスト埋め込みを訓練することで、視覚およびテキスト両モダリティにおけるアクション表現をより優れたものとする。第三に、微調整段階において、動画をシャッフルした状態で質問に回答させることを防止することで、外見的特徴と運動情報の誤った相関を回避し、忠実な時系列推論を保証する。実験の結果、ATMは複数のVideoQAタスクにおいて従来手法を上回る精度を達成し、より優れた真の時系列推論能力を示した。