対照的ビデオ質問応答におけるビデオグラフトランスフォーマー

我々は、Video Graph Transformerモデル(CoVGT)を用いて、対比学習(Contrastive)のアプローチにより動画質問応答(VideoQA)を実現することを提案する。CoVGTの特徴および優位性は以下の3点に集約される。1)視覚的対象、それらの関係性および動的変化を明示的に捉えることで、複雑な時空間的推論を可能にする動的グラフ変換器モジュールを提案している。2)回答分類のためにマルチモーダル変換器を用いるのではなく、動画とテキストの間における対比学習を実現するために、動画用およびテキスト用の別々の変換器を設計している。さらに、細粒度な動画-テキスト間のコミュニケーションは、追加のクロスモーダル相互作用モジュールによって実現されている。3)正解と不正解の回答の間、および関連する質問と関連のない質問の間で、完全自己教師あり(fully- and self-supervised)な対比的最適化目標を統合的に用いることで、モデルを最適化している。優れた動画表現能力とQAソリューションを備えた本モデルは、従来の手法に比べて、動画推論タスクにおいて顕著な性能向上を達成することを示した。さらに、数百万件の外部データで事前学習されたモデルをも上回る性能を発揮している。また、CoVGTはクロスモーダル事前学習からも恩恵を受けることが示されたが、そのデータ量は従来の手法と比べて桁違いに少ない。これらの結果は、CoVGTの有効性と優位性を裏付けているだけでなく、よりデータ効率的な事前学習の可能性も示唆している。本研究の成功が、動画理解の領域において粗い認識・記述から、動画コンテンツの細粒度な関係性推論へと進化することを促進することを期待する。コードは以下のURLから公開されている:https://github.com/doc-doc/CoVGT。