
セマンティックセグメンテーションモデルの学習に伴うアノテーションコストを低減するため、研究者たちは弱教師ありセグメンテーション手法を広く調査している。現在の弱教師ありセグメンテーション手法において最も広く採用されているアプローチは、可視化に基づくものである。しかし、可視化結果は一般的にセマンティックセグメンテーションと一致しない。したがって、弱教師あり条件下で正確なセマンティックセグメンテーションを実現するためには、可視化結果をセマンティックセグメンテーションに変換するマッピング関数を考慮する必要がある。このようなマッピング関数として、条件付きランダムフィールド(Conditional Random Field, CRF)や、セグメンテーションモデルの出力を用いた反復的再訓練が一般的に用いられる。しかしながら、これらの手法は常に精度の向上を保証するものではなく、マッピング関数を複数回反復的に適用する場合、最終的には精度が向上せず、むしろ低下する可能性がある。本論文では、このようなマッピング関数の効果を最大限に活かすために、マッピング関数の出力結果にノイズが含まれていると仮定し、ノイズを除去することで精度を向上させることを目的とする。これを実現するため、マッピング処理前のセグメンテーションマスクと処理後のマスクの差分を予測することで、マッピング結果からノイズを推定する「自己教師あり差分検出モジュール(self-supervised difference detection module)」を提案する。提案手法の有効性は、PASCAL Visual Object Classes 2012データセットを用いた実験により検証され、バリデーションセットで64.9%、テストセットで65.5%のmIoUを達成した。両方の結果とも、同じ弱教師ありセグメンテーション設定下で新たな最良(state-of-the-art)を記録した。