7日前

オールインワン:統合型ビデオ・言語事前学習の探求

Alex Jinpeng Wang, Yixiao Ge, Rui Yan, Yuying Ge, Xudong Lin, Guanyu Cai, Jianping Wu, Ying Shan, Xiaohu Qie, Mike Zheng Shou
オールインワン:統合型ビデオ・言語事前学習の探求
要約

主流の動画・言語事前学習モデル \cite{actbert,clipbert,violet} は、動画エンコーダ、テキストエンコーダ、および動画・テキスト融合Transformerの3つの部分から構成される。これらは、より高性能を実現するために、より重い単モーダルエンコーダーや多モーダル融合Transformerを採用するが、その結果、パラメータ数が増加し、下流タスクにおける効率性が低下するという問題がある。本研究では、初めてエンド・ツー・エンド型の動画・言語モデル「all-in-one Transformer」を提案する。このモデルは、統一されたバックボーンアーキテクチャを用いて、原始的な動画信号とテキスト信号を統合表現に埋め込む。我々は、動画データに特有の時間情報が、モーダルに依存しないTransformerの設計を妨げる主要な障壁であると主張する。この課題を克服するため、パラメータを導入せずに動画クリップの時間的表現を効果的に符号化する、新しい「トークンローリング(token rolling)」操作を導入する。この洗練された設計により、動画・テキストの多モーダル入力だけでなく、単モーダル入力に対しても、統一されたバックボーンモデルを用いた表現学習が可能となる。事前学習済みのall-in-one Transformerは、微調整を経て、テキスト-動画検索、動画質問応答、複数選択、視覚的共通認識推論といったさまざまな下流タスクに適用される。9つのデータセットにおいて、最小限のモデルFLOPsで最先端の性能を達成し、競合モデルと比較して本手法の優位性を実証した。コードおよび事前学習済みモデルは、https://github.com/showlab/all-in-one にて公開されている。

オールインワン:統合型ビデオ・言語事前学習の探求 | 最新論文 | HyperAI超神経