17日前

SimVTP:マスク自動エンコーダを用いたシンプルな動画テキスト事前学習

Yue Ma, Tianyu Yang, Yin Shan, Xiu Li
SimVTP:マスク自動エンコーダを用いたシンプルな動画テキスト事前学習
要約

本稿では、マスクされた自己符号化器(masked autoencoders)を用いたシンプルな動画・テキスト事前学習フレームワーク「SimVTP」を提案する。入力動画の空間時系列チューブ(spatial-temporal tubes)および入力テキストの単語トークン(word tokens)をランダムにマスクし、それらを統合された自己符号化器(unified autoencoder)に投入することで、欠損した画素および単語を再構成する。本手法であるSimVTPは以下の特徴を持つ。1) 統合された自己符号化器により、一方のモダリティのマスクされた信号を他方のモダリティの助けを借りて再構成することができるため、動画のチューブとテキストトークンの間のクロスモダリティ整合性(cross-modal alignment)が暗黙的に学習される。2) 動画の時間的冗長性(temporal redundancy)を活かして、高い動画マスク率(例:90%)を用いることができる一方で、BERTの15%程度と比較してはるかに高いテキストマスク率(例:75%)を必要とする。これは、動画モダリティの補助によりテキストの再構成が容易になるため、有用な特徴学習を促すために前処理(pretext)をより困難にするために高いマスク率が必要となるからである。3) 一般的に用いられるクロスモダリティ学習戦略である動画・テキスト対比学習(Video-Text Contrastive learning, VTC)および動画・テキストマッチング(Video-Text Matching, VTM)をSimVTPに組み込むことで、転移性能が著しく向上する。4) SimVTPはデータ効率性に優れており、WebVid-2Mデータセットの10%のみで事前学習を行った場合でも、MSRVTTにおいて43.8 R@1という驚異的な結果を達成する。これは、CC3MとWebVid-2Mの両方で事前学習を行った最近の最先端手法を大きく上回る性能である。本研究で学習した事前学習モデルを様々な下流タスクに転移適用した結果、優れた性能を示した。コードおよびモデルは、https://github.com/mayuelala/SimVTP にて公開予定である。

SimVTP:マスク自動エンコーダを用いたシンプルな動画テキスト事前学習 | 最新論文 | HyperAI超神経