2ヶ月前

GSVA: 多モーダル大規模言語モデルを用いた一般化セグメンテーション

Xia, Zhuofan ; Han, Dongchen ; Han, Yizeng ; Pan, Xuran ; Song, Shiji ; Huang, Gao
GSVA: 多モーダル大規模言語モデルを用いた一般化セグメンテーション
要約

汎用参照表現分割(Generalized Referring Expression Segmentation: GRES)は、古典的な参照表現分割(RES)の範囲を拡張し、単一の表現で複数の物体を指すか、画像に存在しない空の対象を特定することを目指しています。GRESは、画像内のインスタンス間の複雑な空間関係をモデル化し、存在しない参照対象を識別するという課題を呈しています。最近、マルチモーダル大規模言語モデル(Multimodal Large Language Models: MLLMs)は、これらの複雑な視覚-言語タスクにおいて大きな進歩を遂げています。大規模言語モデル(LLMs)と視覚モデルを接続することで、MLLMsは視覚入力を持つコンテキストの理解に優れています。その中でもLISAは代表的なものであり、特別な[SEG]トークンを使用してセグメンテーションマスクデコーダー(例:SAM)を促し、MLLMsがRESタスクに対応できるようにしています。しかし、現在のセグメンテーションMLLMsでは、ユーザーが単一のプロンプトで複数の主題を参照したり、画像内の対象と一致しない説明を提供する場合などに対処できないため、GRESへの既存の解決策には満足すべき結果が得られていません。本論文では、このギャップに対処するために汎用セグメンテーションビジョンアシスタント(Generalized Segmentation Vision Assistant: GSVA)を提案します。具体的には、GSVAは[SEG]トークンを再利用してセグメンテーションモデルが同時に複数のマスク参照を行うことを支援するとともに、革新的に[REJ]トークンを生成して空の対象を明示的に拒否することを学習します。実験結果によりGSVAがGRES問題の解決に効果的であることが確認され、gRefCOCOデータセットにおけるGRESベンチマークで著しい改善と新たな記録が達成されました。GSVAはまた、様々な古典的な参照セグメンテーションおよび理解タスクにおいても有効性が証明されています。