2ヶ月前

GPT4RoI: Region-of-Interest における大規模言語モデルの指示微調整

Shilong Zhang; Peize Sun; Shoufa Chen; Min Xiao; Wenqi Shao; Wenwei Zhang; Yu Liu; Kai Chen; Ping Luo
GPT4RoI: Region-of-Interest における大規模言語モデルの指示微調整
要約

画像とテキストのペアを用いて大規模言語モデル(LLM)の視覚指示調整が一般的な視覚-言語能力を達成しました。しかし、領域とテキストのペアの不足により、細かい多様性理解への進歩が制限されています。本論文では、領域内の興味範囲(RoI)への参照を指示に導入する空間指示調整を提案します。LLMに入力する前に、参照はRoI特徴量に置き換えられ、言語埋め込みと交互にシーケンスとして配置されます。当社のモデルGPT4RoIは、7つの領域-テキストペアデータセットで訓練され、以前の画像レベルモデルと比較して画期的な対話型体験を提供します。(1) 言語を超えた対話: ユーザーは言語だけでなく、バウンディングボックスを描くことで柔軟に参照粒度を調整し、当社のモデルとの対話を実現できます。(2) 多様な多モーダル能力: GPT4RoIは各RoI内の色、形状、素材、動作などの属性情報を抽出できます。さらに、常識に基づいて複数のRoIについて推論することができます。ビジュアル・コモンセンス・リーズニング(VCR)データセットにおいて、GPT4RoIは81.6%という優れた精度を達成し、既存のすべてのモデルを大幅に上回り(2位は75.6%)、ほぼ人間レベルの性能85.0%に匹敵しています。コードとモデルはhttps://github.com/jshilong/GPT4RoIで入手可能です。