8日前

UniVL:マルチモーダル理解および生成のための統一型ビデオ・言語事前学習モデル

Huaishao Luo, Lei Ji, Botian Shi, Haoyang Huang, Nan Duan, Tianrui Li, Jason Li, Taroon Bharti, Ming Zhou
UniVL:マルチモーダル理解および生成のための統一型ビデオ・言語事前学習モデル
要約

自然言語処理(NLP)および画像・言語タスクにおける事前学習技術の最近の成功に伴い、動画・言語関連の下流タスクの性能向上を目的とした動画・言語事前学習手法が徐々に開発されつつある。しかし、現存する大多数の多モーダルモデルは理解タスク向けに事前学習されているため、生成タスクにおいては「事前学習」と「微調整(fine-tuning)」の間に乖離が生じる問題がある。本論文では、多モーダル理解と生成の両方を対象とする統一的な動画・言語事前学習モデル「UniVL」を提案する。UniVLは、2つの単モーダルエンコーダ、クロスエンコーダ、およびTransformerアーキテクチャを基盤とするデコーダの4つの構成要素から構成される。各構成要素の学習を目的とした5つの学習目標——動画・テキスト同時学習、条件付きマスク言語モデル(CMLM)、条件付きマスクフレームモデル(CMFM)、動画・テキストアライメント、言語再構成——が設計されている。さらに、UniVLの学習プロセスをより効果的にするため、段階的事前学習(StagedP)と強化された動画表現(EnhancedV)の2つの事前学習戦略を導入した。本モデルは、大規模な教育動画データセット「HowTo100M」を用いて事前学習を行った。実験結果により、UniVLが強力な動画・テキスト表現を学習可能であり、5つの下流タスクにおいて最先端(SOTA)の性能を達成することが示された。