HyperAIHyperAI

Command Palette

Search for a command to run...

GPT4RoI: Region-of-Interest における大規模言語モデルの指示微調整

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

概要

画像とテキストのペアを用いて大規模言語モデル(LLM)の視覚指示調整が一般的な視覚-言語能力を達成しました。しかし、領域とテキストのペアの不足により、細かい多様性理解への進歩が制限されています。本論文では、領域内の興味範囲(RoI)への参照を指示に導入する空間指示調整を提案します。LLMに入力する前に、参照はRoI特徴量に置き換えられ、言語埋め込みと交互にシーケンスとして配置されます。当社のモデルGPT4RoIは、7つの領域-テキストペアデータセットで訓練され、以前の画像レベルモデルと比較して画期的な対話型体験を提供します。(1) 言語を超えた対話: ユーザーは言語だけでなく、バウンディングボックスを描くことで柔軟に参照粒度を調整し、当社のモデルとの対話を実現できます。(2) 多様な多モーダル能力: GPT4RoIは各RoI内の色、形状、素材、動作などの属性情報を抽出できます。さらに、常識に基づいて複数のRoIについて推論することができます。ビジュアル・コモンセンス・リーズニング(VCR)データセットにおいて、GPT4RoIは81.6%という優れた精度を達成し、既存のすべてのモデルを大幅に上回り(2位は75.6%)、ほぼ人間レベルの性能85.0%に匹敵しています。コードとモデルはhttps://github.com/jshilong/GPT4RoIで入手可能です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
GPT4RoI: Region-of-Interest における大規模言語モデルの指示微調整 | 記事 | HyperAI超神経