7日前

OmniVL:画像・言語および動画・言語タスクにおけるワンファウンデーションモデル

Junke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Luowei Zhou, Yucheng Zhao, Yujia Xie, Ce Liu, Yu-Gang Jiang, Lu Yuan
OmniVL:画像・言語および動画・言語タスクにおけるワンファウンデーションモデル
要約

本稿では、画像・言語および動画・言語の両方のタスクを同一の汎用アーキテクチャでサポートする新たな基礎モデル「OmniVL」を提案する。OmniVLは、画像入力と動画入力の両方に対して統一されたTransformerベースの視覚エンコーダを採用しており、画像・言語および動画・言語の同時事前学習を実現できる。従来の一方通行の転移学習(例:画像・言語の学習を動画・言語のタスクに活用する)とは異なり、本研究では初めて、この統合的アプローチが画像タスクおよび動画タスクの両方に有益であることを実証した。そのため、視覚・言語モデリングを空間的次元と時間的次元に分離して効果的に処理するため、画像・言語と動画・言語の同時事前学習を分離(デカップル)する手法を提案した。これにより、画像および動画の両方のタスクにおいて性能向上が達成された。さらに、画像・テキスト、動画・テキスト、画像・ラベル(例:画像分類)、動画・ラベル(例:動画行動認識)といった多様なデータを統合的に活用できる新規な統一視覚・言語対比損失(UniVLC損失)を導入した。これにより、教師ありおよびノイズのある教師ありの事前学習データを可能な限り効果的に活用できる。追加のタスク固有のアダプタを導入することなく、OmniVLは視覚のみのタスク(例:画像分類、動画行動認識)、クロスモーダルなアライメントタスク(例:画像・動画・テキスト検索)、マルチモーダルな理解および生成タスク(例:画像・動画質問応答、キャプション生成)を同時にサポート可能である。広範な下流タスクにおいてOmniVLを評価した結果、同程度のモデルサイズおよびデータ規模において、最先端または競争力のある性能を達成した。