2ヶ月前

PSALM: 大規模多モーダルモデルを用いた画素単位のセグメンテーション

Zhang, Zheng ; Ma, Yeyao ; Zhang, Enming ; Bai, Xiang
PSALM: 大規模多モーダルモデルを用いた画素単位のセグメンテーション
要約

PSALMは、大規模マルチモーダルモデル(LMM)の強力な拡張であり、セグメンテーションタスクの課題に対処することを目的としています。LMMがテキスト出力に限定されているという制限を克服するために、PSALMはマスクデコーダーと巧妙に設計された入力スキーマを導入し、さまざまなセグメンテーションタスクを処理できるようにしています。このスキーマには画像、タスク指示、条件付きプロンプト、およびマスクトークンが含まれており、これらの要素によりモデルはセグメンテーションマスクの生成と分類を効果的に行うことができます。PSALMの柔軟な設計は複数のデータセットとタスクでの共同学習をサポートし、性能向上とタスクの汎化能力向上につながっています。PSALMはRefCOCO/RefCOCO+/RefCOCOg、COCOパノラマセグメンテーション、COCO-インタラクティブなどのベンチマークで優れた結果を達成しており、オープンボキャブラリーセグメンテーションや一般化された参照表現セグメンテーション、ビデオオブジェクトセグメンテーションなど未見のタスクにおいてもゼロショット能力を示しています。これはコンピュータビジョンにおけるGPTのような瞬間への重要な一歩となっています。広範な実験を通じて、PSALMは自然言語処理で見られるLMMの堅牢な視覚理解能力を利用して画像セグメンテーション領域を変革する可能性を示しています。コードとモデルはhttps://github.com/zamling/PSALM から入手可能です。

PSALM: 大規模多モーダルモデルを用いた画素単位のセグメンテーション | 最新論文 | HyperAI超神経