
要約
動画質問応答(VideoQA)は、動的な視覚的特徴や離れた関係を抽出し、それらを言語的概念と連携させるためのモデル化能力を要するため、極めて挑戦的な課題である。本研究では、動画に対する表現と推論を構築するための高度な構造を形成するための基本単位として、汎用的かつ再利用可能なニューラルユニット「条件付き関係ネットワーク(Conditional Relation Network: CRN)」を提案する。CRNは、テンソルオブジェクトの配列と条件付特徴(conditioning feature)を入力とし、エンコードされた出力オブジェクトの配列を生成する。モデル構築は、この再利用可能なユニットを多様なモダリティや文脈情報を考慮して複製・再配置・スタックするというシンプルな作業に還元される。この設計により、高次元の関係性推論および複数ステップにわたる推論が可能となる。提案するVideoQAのアーキテクチャは、CRNの階層構造であり、各ブランチが部分動画またはクリップを表し、すべてが同一の質問を文脈条件として共有する。既存の代表的なデータセットにおける評価では、新たなSOTA(State-of-the-Art)成績を達成し、VideoQAのような複雑な領域において、汎用的推論ユニットを構築することの有効性を実証した。