HyperAIHyperAI

Command Palette

Search for a command to run...

Groma: ローカライズされた視覚的トークン化によるマルチモーダル大規模言語モデルのグラウンディング

Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi

概要

私たちは、マルチモーダル大規模言語モデル(Multimodal Large Language Model: MLLM)であるGromaを紹介します。Gromaは、全体的な画像理解に加えて、領域レベルのタスク、例えば領域キャプション生成や視覚的定位などに優れています。これらの能力は、局所化された視覚トークン化メカニズムに基づいています。このメカニズムでは、画像入力が興味深い領域に分解され、その後領域トークンとして符号化されます。ユーザーの指示とモデルの応答に領域トークンを統合することで、Gromaはユーザー指定の領域入力を理解し、テキスト出力を画像に定位させることがスムーズに行えます。さらに、Gromaの視覚的定位チャット機能を強化するために、強力なGPT-4Vと視覚プロンプト技術を活用して視覚的に定位された指示データセットを作成しました。言語モデルや外部モジュールに依存するMLLMと比較すると、Gromaは標準的な参照および定位ベンチマークで一貫して優れた性能を示しており、局所化を画像トークン化に組み込むことの利点を強調しています。プロジェクトページ: https://groma-mllm.github.io/.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています