
要約
画像レベルの弱教師付きセマンティックセグメンテーション(WSSS)は、擬似ラベルの生成にクラス活性マップ(CAMs)に依存している。しかし、CAMsは物体の最も特徴的な領域のみを強調するため、生成される擬似ラベルは直接的な教師信号として不十分な場合が多い。これを解決するために、多くの既存手法はCAMをより良い擬似ラベルに改善するためのマルチトレーニングパイプラインを採用している。このパイプラインは以下の3段階から構成される:1)分類モデルの再トレーニングによりCAMを生成;2)CAMの後処理により擬似ラベルを取得;3)得られた擬似ラベルを用いてセマンティックセグメンテーションモデルを訓練する。しかし、このマルチトレーニングパイプラインは複雑な調整を要し、追加の計算時間も必要となる。この問題に対処するため、本研究では分類器の再トレーニングを必要とせずに、より優れた擬似ラベルを生成するための「クラス条件付き推論戦略」と「活性に配慮したマスク精 refinement損失関数」を提案する。クラス条件付き推論戦略は、分類ネットワークが内在する物体活性を個別かつ反復的に可視化することで、より完全な応答マップを生成することを可能にする。さらに、本研究で提案する活性に配慮したマスク精 refinement損失関数は、セグメンテーション訓練中にサリエンシマップを新規に活用する手法を導入し、背景オブジェクトを抑制することなく前景オブジェクトマスクを精 refinementする。本手法は分類器の再トレーニングを必要とせずに、優れたWSSS性能を達成した。