セマンティックプロンプト学習による弱教師付きセマンティックセグメンテーション

弱教師付きセマンティックセグメンテーション(WSSS)は、画像レベルのラベルのみを用いてセグメンテーションモデルを学習することを目的としています。正確なピクセルレベルのアノテーションが得られないため、従来の手法は通常、CAM(Class Activation Mapping)に類似したヒートマップを精緻化することで、学習用の擬似マスクを生成することに注力しています。しかし、生成されたヒートマップは、オブジェクトカテゴリの識別性の高い領域や、関連する共起背景のみを捉える傾向があり、正確なセグメンテーションを妨げることがあります。この課題に対処するため、本研究では、CLIPの潜在空間を効果的にプロンプト化することで、セグメンテーション領域とターゲットオブジェクトカテゴリ間の意味的整合性を強化する「SemPLeS(Semantic Prompt Learning for WSSS)」フレームワークを提案します。具体的には、各オブジェクトカテゴリに関連する共起背景を適切に抑制しつつ、そのカテゴリを十分に表現するプロンプトを学習するための「対照的プロンプト学習(Contrastive Prompt Learning)」と「プロンプト誘導型意味的精緻化(Prompt-guided Semantic Refinement)」を提案します。これにより、SemPLeSはオブジェクト領域とクラスラベルの間でより優れた意味的整合性を実現でき、セグメンテーションモデルの学習に適した理想的な擬似マスクを生成することが可能になります。提案するSemPLeSフレームワークは、標準的なWSSSベンチマークであるPASCAL VOC 2012およびMS COCO 2014において競争力のある性能を達成しており、他のWSSS手法とも良好に統合可能であることが示されています。コードは以下のGitHubリポジトリで公開されています:https://github.com/NVlabs/SemPLeS。