7日前

マスク視覚モデリングを用いたエンドツーエンド型ビデオ・言語Transformerに関する実証的研究

Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang, Zicheng Liu

要約

マスク付き視覚モデリング（MVM）は、近年、視覚的前処理において有効であることが示された。動画入力に対して類似の再構成目的（例えば、マスクフレームモデリング）は、動画-言語（VidL）前処理においても検討されてきたが、これまでの研究では、下流タスクの性能を顕著に向上させる真に有効なMVM戦略を見出すことができなかった。本研究では、VidL学習の文脈におけるMVMの可能性を体系的に検証する。具体的には、MVM学習からの勾配が動画ピクセル空間にまで逆伝播可能である、完全にエンドツーエンド型のVIdeO-LanguagE Transformer（VIOLET）をベースにした。本研究では、低レベルのピクセル値や方向勾配から、高レベルの深度マップ、光流、離散的視覚トークン、潜在的視覚特徴に至るまで、合計8種類の異なる再構成ターゲットをMVMとして検討した。包括的な実験を通じて、有効なMVM学習をもたらす要因に関する知見を提供し、その結果、性能が向上したモデル「VIOLETv2」を構築した。実証的に、MVM目的で事前学習されたVIOLETv2は、動画質問応答、動画キャプション生成、テキストから動画への検索に至るまで、13のVidLベンチマークで顕著な性能向上を達成した。