GROUNDHOG: 大規模言語モデルの包括的セグメンテーションへの接地

大多数多模态大语言模型(MM-LMs)通过因果语言建模学习语言到对象的对齐,其中对齐的对象通过边界框作为位置标记序列被捕获。这种范式缺乏对于细粒度视觉理解和诊断至关重要的像素级表示。在本研究中,我们介绍了GROUNDHOG,这是一种通过将大语言模型与整体分割对齐而开发的多模态大语言模型。GROUNDHOG结合了一个掩码特征提取器,并将提取的特征转换为视觉实体标记,供MM-LM主干使用,然后通过检索和合并实体掩码,将可对齐的短语连接到统一的对齐掩码上。为了训练GROUNDHOG,我们精心策划了M3G2,这是一个具有多模态多粒度对齐功能的接地视觉指令调优数据集,通过收集带有丰富注释的分割对齐数据集来构建。我们的实验结果显示,GROUNDHOG在各种语言对齐任务中无需特定任务微调即可实现卓越性能,并显著减少了对象幻觉现象。此外,GROUNDHOG还展示了对复杂形式视觉输入更好的对齐能力,并在失败案例中提供了易于理解的诊断。日本語訳:多くの多モーダル大言語モデル(Multimodal Large Language Models: MLLMs)は、因果言語モデリングを通じて言語とオブジェクトの対応関係を学習し、対応したオブジェクトは位置トークンのシーケンスとして境界ボックスで捕捉される。このパラダイムは、細かい視覚理解や診断に重要なピクセルレベルの表現が欠けています。本研究では、大言語モデルを全体的なセグメンテーションに接地させることで開発された多モーダル大言語モデル「GROUNDHOG」を紹介します。GROUNDHOGはマスク付き特徴抽出器を組み込み、抽出された特徴を視覚エンティティトークンに変換してMM-LMのバックボーンに供給します。その後、エンティティマスクを検索・統合することで、対応可能なフレーズを統一された接地マスクに接続します。GROUNDHOGの訓練のために、私たちはM3G2というデータセットを慎重に作成しました。これは、豊富なアノテーションを持つセグメンテーション接地データセットから収集して構築された、多モーダル・マルチグラニュール接地機能を持つ接地視覚指示調整データセットです。実験結果によると、GROUNDHOGは特定タスクへの微調整なしで様々な言語接地タスクにおいて優れた性能を達成し、オブジェクトの幻覚現象も大幅に削減しています。さらに、GROUNDHOGは複雑な視覚入力形式に対するより良い接地能力を持ち、失敗ケースにおける診断も容易に行えることが示されています。