HyperAIHyperAI

Command Palette

Search for a command to run...

UniVL:マルチモーダル理解および生成のための統一型ビデオ・言語事前学習モデル

Huaishao Luo Lei Ji Botian Shi Haoyang Huang Nan Duan Tianrui Li Jason Li Taroon Bharti Ming Zhou

概要

自然言語処理(NLP)および画像・言語タスクにおける事前学習技術の最近の成功に伴い、動画・言語関連の下流タスクの性能向上を目的とした動画・言語事前学習手法が徐々に開発されつつある。しかし、現存する大多数の多モーダルモデルは理解タスク向けに事前学習されているため、生成タスクにおいては「事前学習」と「微調整(fine-tuning)」の間に乖離が生じる問題がある。本論文では、多モーダル理解と生成の両方を対象とする統一的な動画・言語事前学習モデル「UniVL」を提案する。UniVLは、2つの単モーダルエンコーダ、クロスエンコーダ、およびTransformerアーキテクチャを基盤とするデコーダの4つの構成要素から構成される。各構成要素の学習を目的とした5つの学習目標——動画・テキスト同時学習、条件付きマスク言語モデル(CMLM)、条件付きマスクフレームモデル(CMFM)、動画・テキストアライメント、言語再構成——が設計されている。さらに、UniVLの学習プロセスをより効果的にするため、段階的事前学習(StagedP)と強化された動画表現(EnhancedV)の2つの事前学習戦略を導入した。本モデルは、大規模な教育動画データセット「HowTo100M」を用いて事前学習を行った。実験結果により、UniVLが強力な動画・テキスト表現を学習可能であり、5つの下流タスクにおいて最先端(SOTA)の性能を達成することが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
UniVL:マルチモーダル理解および生成のための統一型ビデオ・言語事前学習モデル | 記事 | HyperAI超神経