HyperAIHyperAI

Command Palette

Search for a command to run...

LISA: 大規模言語モデルを用いた推論セグメンテーション

Xin Lai; Zhuotao Tian; Yukang Chen; Yanwei Li; Yuhui Yuan; Shu Liu; Jiaya Jia

概要

近年、認識システムは著しい進歩を遂げていますが、視覚認識タスクを実行する前に目標オブジェクトを識別するために、明示的な人間の指示や事前定義されたカテゴリに依存しています。このようなシステムは、ユーザーの暗黙の意図を積極的に推論し理解することはできません。本研究では、新しいセグメンテーションタスクである「推論セグメンテーション」を提案します。このタスクは、複雑で暗黙的なクエリテキストが与えられた場合にセグメンテーションマスクを出力することを目指しています。さらに、評価のために複雑な推論と世界の知識を取り入れた1000を超える画像-指示-マスクデータサンプルからなるベンチマークを確立しました。最後に、LISA(Large Language Instructed Segmentation Assistant)という大規模言語指導型セグメンテーションアシスタントを提示します。LISAはマルチモーダルの大規模言語モデル(LLM)の言語生成能力を受け継ぎつつ、セグメンテーションマスクを作成する能力も持っています。元のボキャブラリーにトークンを追加し、「埋め込みとしてのマスク」パラダイムを提案することで、セグメンテーション機能を開花させます。特にLISAは、複雑な推論や世界の知識に関わるケースに対処することができます。また、推論不要のデータセットのみで訓練された場合でも堅牢なゼロショット能力を示します。さらに、239件の推論セグメンテーションデータサンプルでの微調整により性能が向上します。定量的および定性的実験結果から、当手法がマルチモーダルLLMに対して新たな推論セグメンテーション機能を開花させることが効果的に確認されました。コード、モデル、データセットはhttps://github.com/dvlab-research/LISA で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LISA: 大規模言語モデルを用いた推論セグメンテーション | 記事 | HyperAI超神経