16日前

視覚的・テキスト的プロアドバイスを用いたマスクアセンブリによる少サンプルセグメンテーションおよびそれ以上の領域

Chen Shuai, Meng Fanman, Zhang Runtong, Qiu Heqian, Li Hongliang, Wu Qingbo, Xu Linfeng
視覚的・テキスト的プロアドバイスを用いたマスクアセンブリによる少サンプルセグメンテーションおよびそれ以上の領域
要約

少ショットセグメンテーション(FSS)は、少数のアノテーション付き画像を用いて新たなクラスをセグメンテーションすることを目的としている。CLIPが視覚情報とテキスト情報の間の対応付けに優れていることから、CLIPを統合することでFSSモデルの汎化能力を向上させることができる。しかし、CLIPを用いた既存のFSS手法であっても、クラス固有の特徴レベルの相互作用によってベースクラスへのバイアス予測が依然として生じており、この問題は限界を引き起こしている。この課題を解決するために、視覚的かつテキスト的プライアを活用したマスクアセンブリネットワーク(PGMA-Net)を提案する。本手法は、クラスに依存しないマスクアセンブリプロセスを採用し、バイアスを軽減する。さらに、類似度に基づくプライアのアセンブリにより、多様なタスクを統一的な枠組みで定式化する。具体的には、クラスに関連するテキストおよび視覚特徴を、確率マップとしてクラスに依存しないプライアに変換する。その後、複数の汎用アセンブルユニット(GAUs)を含む、プライアガイドドマスクアセンブルモジュール(PGMAM)を導入する。このモジュールは、視覚-テキスト間、画像間・画像内、トレーニング不要、高次元の相互作用など、多様かつプラグアンドプレイ可能な相互作用を考慮する。最後に、クラスに依存しない能力を保証するため、クラス固有の情報に依存せずに、アセンブルされたマスクと低レベル特徴を柔軟に活用できる階層的デコーダ(HDCDM)を提案する。本手法は、1ショット設定においてPASCAL-5^iでmIoU 77.6、COCO-20^iでmIoU 59.4という、FSSタスクにおける新たなSOTA(最先端)性能を達成した。さらに、追加の再訓練を必要とせずに、PGMA-NetはボックスレベルのFSS、クロスドメインFSS、コセグメンテーション、ゼロショットセグメンテーション(ZSS)といったタスクに対応可能であり、あらゆるショット数に対応可能な統合的セグメンテーションフレームワークを実現した。

視覚的・テキスト的プロアドバイスを用いたマスクアセンブリによる少サンプルセグメンテーションおよびそれ以上の領域 | 最新論文 | HyperAI超神経