11日前

MVP-SEG：オープンボリュームセマンティックセグメンテーションのためのマルチビュー・プロンプト学習

Jie Guo, Qimeng Wang, Yan Gao, Xiaolong Jiang, Xu Tang, Yao Hu, Baochang Zhang

要約

CLIP（Contrastive Language-Image Pretraining）は、オープンボリュームゼロショットの画像レベル認識において十分に発展している一方で、ピクセルレベルのタスクへの応用はまだ十分に検討されておらず、多くの研究ではCLIP特徴量をそのまま用いるにとどまっている。本研究では、まず画像ピクセルレベルにおけるCLIP特徴量の適応の必要性を示した上で、マルチビュー・プロンプト学習（MVP-SEG）を提案し、画像ピクセルレベルの適応を実現し、オープンボリュームセマンティックセグメンテーションを解決する有効な手法として提示する。具体的には、本手法は、直交制約損失（OCLoss）により訓練された複数のプロンプトを意図的に学習することで、各プロンプトがCLIP特徴量を対象物の異なる部位に適切に活用するように監督する。また、すべてのプロンプトが生成する協調的なセグメンテーションマスクが、より優れたセグメンテーション性能を実現する。さらに、MVP-SEGはクラスごとのセグメンテーションノイズをさらに低減するためのグローバルプロンプト精製（GPR）を導入している。実験の結果、既知のカテゴリから学習されたマルチビュー・プロンプトは未知のカテゴリへの強力な一般化能力を示し、知識移行ステージを組み合わせたMVP-SEG+は、複数のベンチマークにおいて従来手法を大きく上回る性能を達成した。さらに、定性的な結果から、MVP-SEGが異なる局所領域に適切に注目する能力を有していることが確認された。