2ヶ月前

MiniGPT-v2: 大規模言語モデルを視覚-言語多タスク学習の統一インターフェースとして

Jun Chen; Deyao Zhu; Xiaoqian Shen; Xiang Li; Zechun Liu; Pengchuan Zhang; Raghuraman Krishnamoorthi; Vikas Chandra; Yunyang Xiong; Mohamed Elhoseiny
MiniGPT-v2: 大規模言語モデルを視覚-言語多タスク学習の統一インターフェースとして
要約

大規模言語モデルは、さまざまな言語関連アプリケーションの一般的なインターフェースとしてその著しい能力を示しています。この動機に基づいて、当研究では画像説明、視覚的な質問応答、視覚的定位など、多様なビジョン・ランゲージタスクを単一のモデルで効果的に処理できる統一インターフェースの構築を目指します。課題は、単一のモデルを使用して、簡単なマルチモーダル指示によって多様なビジョン・ランゲージタスクを効果的に実行することです。この目標に向けて、私たちは MiniGPT-v2 を導入します。これは、さまざまなビジョン・ランゲージタスクをより適切に処理するための統一インターフェースとして機能するモデルです。当研究では、モデルの学習時に異なるタスクに対して独自の識別子を使用することを提案します。これらの識別子により、モデルは各タスク指示を容易に区別し、各タスクの学習効率も向上します。3段階の学習後、実験結果は MiniGPT-v2 が他のビジョン・ランゲージ汎用モデルと比較して多くの視覚的な質問応答および視覚的定位ベンチマークで優れた性能を達成していることを示しています。私たちのモデルとコードは https://minigpt-v2.github.io/ で公開されています。科技/学术术语处理:- 大規模言語モデル (Large language models)- ビジョン・ランゲージタスク (Vision-language tasks)- 画像説明 (Image description)- 視覚的な質問応答 (Visual question answering)- 視覚的定位 (Visual grounding)- マルチモーダル指示 (Multi-modal instructions)- 学習効率 (Learning efficiency)

MiniGPT-v2: 大規模言語モデルを視覚-言語多タスク学習の統一インターフェースとして | 最新論文 | HyperAI超神経