HyperAIHyperAI

Command Palette

Search for a command to run...

マスク視覚モデリングを用いたエンドツーエンド型ビデオ・言語Transformerに関する実証的研究

Tsu-Jui Fu Linjie Li Zhe Gan Kevin Lin William Yang Wang Lijuan Wang Zicheng Liu

概要

マスク付き視覚モデリング(MVM)は、近年、視覚的前処理において有効であることが示された。動画入力に対して類似の再構成目的(例えば、マスクフレームモデリング)は、動画-言語(VidL)前処理においても検討されてきたが、これまでの研究では、下流タスクの性能を顕著に向上させる真に有効なMVM戦略を見出すことができなかった。本研究では、VidL学習の文脈におけるMVMの可能性を体系的に検証する。具体的には、MVM学習からの勾配が動画ピクセル空間にまで逆伝播可能である、完全にエンドツーエンド型のVIdeO-LanguagE Transformer(VIOLET)をベースにした。本研究では、低レベルのピクセル値や方向勾配から、高レベルの深度マップ、光流、離散的視覚トークン、潜在的視覚特徴に至るまで、合計8種類の異なる再構成ターゲットをMVMとして検討した。包括的な実験を通じて、有効なMVM学習をもたらす要因に関する知見を提供し、その結果、性能が向上したモデル「VIOLETv2」を構築した。実証的に、MVM目的で事前学習されたVIOLETv2は、動画質問応答、動画キャプション生成、テキストから動画への検索に至るまで、13のVidLベンチマークで顕著な性能向上を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています