16日前

ラベルAnything：視覚プロンプトを用いたマルチクラス少サンプルセマンティックセグメンテーション

Pasquale De Marinis, Nicola Fanelli, Raffaele Scaringi, Emanuele Colonna, Giuseppe Fiameni, Gennaro Vessio, Giovanna Castellano

論文の詳細を見る

ラベルAnything：視覚プロンプトを用いたマルチクラス少サンプルセマンティックセグメンテーション

要約

我々は、少量の例（few-shot）で多クラスのセマンティックセグメンテーション（FSS）を実現するための革新的なニューラルネットワークアーキテクチャ「Label Anything」を提案する。本手法は、各クラスに対して極めて少ないサンプル数で優れた汎化性能を示す特徴を持つ。従来のFSS手法がサポート画像のアノテーションに主にマスクに依存しているのに対し、Label Anythingは点、バウンディングボックス、マスクといった多様な視覚的プロンプトを導入することで、フレームワークの柔軟性と適応性を大幅に向上させた。本研究の特徴として、Label Anythingは複数クラスのFSS設定においてエンドツーエンドで訓練可能であり、再訓練を必要とせずに多様なサポートセット構成から効率的に学習できる。このアプローチにより、1ウェイ1ショットから複雑なNウェイKショットまで、さまざまなFSS課題に「ユニバーサル」に適用可能であり、クラスごとの例数に依存しない（agnostic）設計が実現されている。この革新的な学習戦略は計算リソースの削減を実現するとともに、多様なセグメンテーションタスクにおけるモデルの適応性と汎化能力を著しく向上させる。包括的な実験評価において、特にCOCO-20iベンチマークで最先端の性能を達成したことは、Label Anythingの強固な汎化能力と柔軟性を裏付けている。ソースコードは公開されており、以下のURLから入手可能である：https://github.com/pasqualedem/LabelAnything。