HyperAIHyperAI

Command Palette

Search for a command to run...

MVP-SEG:オープンボリュームセマンティックセグメンテーションのためのマルチビュー・プロンプト学習

Jie Guo Qimeng Wang Yan Gao Xiaolong Jiang Xu Tang Yao Hu Baochang Zhang

概要

CLIP(Contrastive Language-Image Pretraining)は、オープンボリュームゼロショットの画像レベル認識において十分に発展している一方で、ピクセルレベルのタスクへの応用はまだ十分に検討されておらず、多くの研究ではCLIP特徴量をそのまま用いるにとどまっている。本研究では、まず画像ピクセルレベルにおけるCLIP特徴量の適応の必要性を示した上で、マルチビュー・プロンプト学習(MVP-SEG)を提案し、画像ピクセルレベルの適応を実現し、オープンボリュームセマンティックセグメンテーションを解決する有効な手法として提示する。具体的には、本手法は、直交制約損失(OCLoss)により訓練された複数のプロンプトを意図的に学習することで、各プロンプトがCLIP特徴量を対象物の異なる部位に適切に活用するように監督する。また、すべてのプロンプトが生成する協調的なセグメンテーションマスクが、より優れたセグメンテーション性能を実現する。さらに、MVP-SEGはクラスごとのセグメンテーションノイズをさらに低減するためのグローバルプロンプト精製(GPR)を導入している。実験の結果、既知のカテゴリから学習されたマルチビュー・プロンプトは未知のカテゴリへの強力な一般化能力を示し、知識移行ステージを組み合わせたMVP-SEG+は、複数のベンチマークにおいて従来手法を大きく上回る性能を達成した。さらに、定性的な結果から、MVP-SEGが異なる局所領域に適切に注目する能力を有していることが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています