16日前

X$^2$-VLM：ビジュアル・ランゲージタスク向け一体型事前学習モデル

Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang, Wangchunshu Zhou

要約

視覚言語事前学習は、大量のデータから視覚と言語の間の対応関係（アライメント）を学ぶことを目的としている。既存の多くは画像とテキストのアライメントのみを学習している。一方、一部の手法では事前学習済みの物体検出器を活用し、物体レベルでの視覚言語アライメントを導入している。本論文では、統一的な事前学習フレームワークを用いて、複数スケールの視覚言語アライメントと、それに伴う複数スケールの局所化を同時に学習する方法を提案する。このフレームワークに基づき、柔軟なモジュール構造を持つ統合型モデルであるX$^2$-VLMを提示する。さらに、X$^2$-VLMは画像-テキスト事前学習と動画-テキスト事前学習を一つのモデル内で統一的に実現している。X$^2$-VLMは、多様なテキスト記述と関連付けられる無制限の視覚的概念を学習可能である。実験結果から、X$^2$-VLMは画像-テキストおよび動画-テキストの両タスクにおいて、ベースサイズおよび大規模モデルにおいて最良の性能を発揮し、性能とモデル規模の間で良好なトレードオフを達成していることが示された。さらに、X$^2$-VLMのモジュール構造が、任意の言語やドメインへの高い転移性をもたらすことを示した。例えば、テキストエンコーダをXLM-Rに単純に置き換えるだけで、多言語事前学習を一切行わずに、最先端の多言語マルチモーダル事前学習モデルを上回る性能を達成している。コードおよび事前学習済みモデルは、https://github.com/zengyan-97/X2-VLM にて公開されている。