15日前
エンドツーエンド視覚言語Transformerの学習に関する実証的研究
Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Pengchuan Zhang, Lu Yuan, Nanyun Peng, Zicheng Liu, Michael Zeng

要約
視覚・言語(VL)事前学習は、さまざまなVL下流タスクにおいて非常に有効であることが実証されている。近年の研究では、従来の領域特徴ベースの手法と比較して、完全にTransformerベースのVLモデルがより効率的であることが示されているが、その下流タスクにおける性能はしばしば著しく低下する傾向にある。本論文では、完全にTransformerベースのVLモデルをエンドツーエンドの形で設計・事前学習する方法を検討するため、マルチモーダルエンドツーエンドTransformerフレームワーク「METER」を提案する。具体的には、複数の次元にわたりモデル設計を分解・分析する:視覚エンコーダ(例:CLIP-ViT、Swin Transformer)、テキストエンコーダ(例:RoBERTa、DeBERTa)、マルチモーダル融合モジュール(例:マージドアテンション vs. コアテンション)、アーキテクチャ設計(例:エンコーダオンリー vs. エンコーダデコーダ)、および事前学習目的(例:マスク画像モデリング)。広範な実験を通じて、高性能なVLTransformerモデルをどのように学習すべきかに関する知見を提供する。METERは、事前学習にわずか400万枚の画像を使用した上で、VQAv2 test-stdセットにおいて77.64%の精度を達成し、最先端の領域特徴ベースモデルを1.04%上回り、従来の最良の完全Transformerベースモデルを1.6%上回った。特に、さらにスケーリングを施した場合、我々の最良のVQAモデルは80.54%の精度を達成した。コードおよび事前学習済みモデルは、https://github.com/zdou0830/METER にて公開されている。