HyperAIHyperAI

Command Palette

Search for a command to run...

SimVLM:弱教師信号を用いたシンプルな視覚言語モデルの事前学習

Zirui Wang Jiahui Yu Adams Wei Yu Zihang Dai Yulia Tsvetkov Yuan Cao

概要

近年、視覚的表現とテキスト表現の共同モデリングに関する進展に伴い、視覚言語事前学習(Vision-Language Pretraining; VLP)は、多数のマルチモーダル下流タスクにおいて顕著な性能を達成している。しかし、クリーンな画像キャプションや領域ラベルを含む高コストなアノテーションを必要とするという制約が、既存のアプローチのスケーラビリティを制限しており、複数のデータセット固有の目的関数を導入することにより、事前学習プロセスがさらに複雑化している。本研究では、こうした制約を緩和し、シンプルな事前学習フレームワークである「Simple Visual Language Model(SimVLM)」を提案する。従来の手法とは異なり、SimVLMは大規模な弱教師付き学習を活用することで訓練の複雑性を低減し、単一のプレフィックス言語モデリング目的関数に基づいてエンドツーエンドで学習される。追加データやタスク特化的なカスタマイズを一切用いずに、本モデルは従来の事前学習手法を大きく上回り、VQA(+3.74%のVQAスコア)、NLVR2(+1.17%の精度)、SNLI-VE(+1.37%の精度)、画像キャプション(平均CIDErスコアで+10.1%)を含む広範な識別的・生成的視覚言語ベンチマークにおいて、新たな最先端性能を達成した。さらに、SimVLMが優れた汎化能力および転移能力を獲得していることを実証し、オープンエンドな視覚質問応答や異モダリティ間転移といったゼロショット行動を実現可能であることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SimVLM:弱教師信号を用いたシンプルな視覚言語モデルの事前学習 | 記事 | HyperAI超神経