9日前
ビデオを多粒度質問応答のための条件付きグラフ階層として扱う
Junbin Xiao, Angela Yao, Zhiyuan Liu, Yicong Li, Wei Ji, Tat-Seng Chua

要約
動画質問応答(Video Question Answering)は、モデルが複雑な動画データと言語データの両方を理解し、論理的に推論することで正解を導き出すことを求めます。従来の研究は、二つのモダリティ(動画と質問)からの情報を融合するための洗練されたクロスモーダル相互作用の設計に注力しており、動画と質問をそれぞれフレーム列および語の列として全体的に符号化するアプローチを採用しています。これらの手法は成果を上げていますが、本質的には動画および質問の内容が順序的であることに依拠しており、質問応答という問題に対する深い洞察を提供するものではなく、解釈可能性にも欠けるという課題があります。本研究では、動画がフレームの順序として提示される一方で、視覚的要素(例えば物体、動作、行動、イベントなど)は語義空間において順序的ではなく、むしろ階層的であるという点に着目します。言語クエリにおける多粒度的な概念の本質に適合させるために、対応するテキスト的ヒントをもとに、異なる粒度の視覚的事実を段階的に統合する「条件付き階層的グラフ構造」として動画をモデル化することを提案します。このアプローチは単純であるものの、広範な実験により、従来手法に比べて顕著な性能向上を示し、さまざまなタイプの質問に対する汎化能力も優れていることが実証されています。さらに、詳細な分析から、予測された回答に対して意味のある視覚的・言語的根拠(evidence)を明確に提示できることから、モデルの信頼性も示されています。