9日前

動画質問応答のための Video Graph Transformer

Junbin Xiao, Pan Zhou, Tat-Seng Chua, Shuicheng Yan
動画質問応答のための Video Graph Transformer
要約

本稿では、動画質問応答(VideoQA)のためのVideo Graph Transformer(VGT)モデルを提案する。VGTの特徴は以下の2点に集約される。第一に、視覚的対象、それらの関係性、および時間的変化を明示的に捉えることで、複雑な時空間的推論を可能にする動的グラフTransformerモジュールを設計している。第二に、回答分類のためのエンタングルドなクロスモーダルTransformerではなく、動画とテキストのTransformerを分離(ディセントラル化)して、両者の関連性を比較するアプローチを採用している。視覚とテキスト間のコミュニケーションは、追加のクロスモーダル相互作用モジュールによって実現される。より合理的な動画エンコーディングとQAアーキテクチャを採用することで、従来手法に比べて、動的関係推論を要するVideoQAタスクにおいて、事前学習を用いない状況下で大幅な性能向上を達成できることを示す。さらに、数百万件の外部データで事前学習されたモデルをも凌ぐ性能を発揮する。また、VGTは自己教師付きクロスモーダル事前学習により大幅な利点を得られることも示しており、そのデータ量は従来の手法と比べて桁違いに少ない。これらの結果は、VGTの有効性と優位性を明確に示しており、よりデータ効率的な事前学習の可能性を示唆している。包括的な分析およびいくつかのヒューリスティックな観察を通じて、本研究は、現実の動画における細粒度の関係推論へとVideoQA研究を進展させる可能性を示唆する。本モデルのコードは、https://github.com/sail-sg/VGT にて公開されている。