2ヶ月前

Groma: ローカライズされた視覚的トークン化によるマルチモーダル大規模言語モデルのグラウンディング

Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi
Groma: ローカライズされた視覚的トークン化によるマルチモーダル大規模言語モデルのグラウンディング
要約

私たちは、マルチモーダル大規模言語モデル(Multimodal Large Language Model: MLLM)であるGromaを紹介します。Gromaは、全体的な画像理解に加えて、領域レベルのタスク、例えば領域キャプション生成や視覚的定位などに優れています。これらの能力は、局所化された視覚トークン化メカニズムに基づいています。このメカニズムでは、画像入力が興味深い領域に分解され、その後領域トークンとして符号化されます。ユーザーの指示とモデルの応答に領域トークンを統合することで、Gromaはユーザー指定の領域入力を理解し、テキスト出力を画像に定位させることがスムーズに行えます。さらに、Gromaの視覚的定位チャット機能を強化するために、強力なGPT-4Vと視覚プロンプト技術を活用して視覚的に定位された指示データセットを作成しました。言語モデルや外部モジュールに依存するMLLMと比較すると、Gromaは標準的な参照および定位ベンチマークで一貫して優れた性能を示しており、局所化を画像トークン化に組み込むことの利点を強調しています。プロジェクトページ: https://groma-mllm.github.io/.

Groma: ローカライズされた視覚的トークン化によるマルチモーダル大規模言語モデルのグラウンディング | 最新論文 | HyperAI超神経