8ヶ月前

概要

近年、認識システムは著しい進歩を遂げていますが、視覚認識タスクを実行する前に目標オブジェクトを識別するために、明示的な人間の指示や事前定義されたカテゴリに依存しています。このようなシステムは、ユーザーの暗黙の意図を積極的に推論し理解することはできません。本研究では、新しいセグメンテーションタスクである「推論セグメンテーション」を提案します。このタスクは、複雑で暗黙的なクエリテキストが与えられた場合にセグメンテーションマスクを出力することを目指しています。さらに、評価のために複雑な推論と世界の知識を取り入れた1000を超える画像-指示-マスクデータサンプルからなるベンチマークを確立しました。最後に、LISA（Large Language Instructed Segmentation Assistant）という大規模言語指導型セグメンテーションアシスタントを提示します。LISAはマルチモーダルの大規模言語モデル（LLM）の言語生成能力を受け継ぎつつ、セグメンテーションマスクを作成する能力も持っています。元のボキャブラリーにトークンを追加し、「埋め込みとしてのマスク」パラダイムを提案することで、セグメンテーション機能を開花させます。特にLISAは、複雑な推論や世界の知識に関わるケースに対処することができます。また、推論不要のデータセットのみで訓練された場合でも堅牢なゼロショット能力を示します。さらに、239件の推論セグメンテーションデータサンプルでの微調整により性能が向上します。定量的および定性的実験結果から、当手法がマルチモーダルLLMに対して新たな推論セグメンテーション機能を開花させることが効果的に確認されました。コード、モデル、データセットはhttps://github.com/dvlab-research/LISA で公開されています。

ソースPDF