
要約
画像レベルの弱教師付きセマンティックセグメンテーション(WSSS)は、クラス活性化マップ(CAMs)を基盤として著しい進展を遂げてきたが、分類とセグメンテーションの間にある大きな監督ギャップが、より完全かつ正確な疑似マスクの生成を妨げている。本研究では、ピクセルレベルの監督信号を提供することでこのギャップを縮小する、弱教師付きピクセル対プロトタイプコントラストを提案する。本手法は、2つの直感的な事前知識をもとに、画像の異なるビュー間および各単一ビュー内において実行され、ビュー間の特徴の意味的整合性を正則化し、特徴空間におけるクラス内凝集性(コンパクトネス)およびクラス間分散性(ディスパーション)を促進することを目的としている。本手法は、ベースネットワークに一切の変更を加えず、既存のWSSSモデルにスムーズに統合可能であり、推論負荷の増加も生じない。広範な実験により、本手法が2つの強力なベースラインに対して一貫して大幅な性能向上をもたらすことが実証された。特にSEAMをベースにした場合、PASCAL VOC 2012における初期種マスクのmIoUを55.4%から61.5%まで向上させた。さらに、本手法を適用することで、EPSのセグメンテーションmIoUを70.8%から73.6%まで向上させ、新たな最先端性能を達成した。