17日前

信頼性は重要である:エンドツーエンド弱教師ありセマンティックセグメンテーションアプローチ

Bingfeng Zhang, Jimin Xiao, Yunchao Wei, Mingjie Sun, Kaizhu Huang
信頼性は重要である:エンドツーエンド弱教師ありセマンティックセグメンテーションアプローチ
要約

弱教師ありセマンティックセグメンテーションは、学習時に画像レベルの情報のみを教師信号として用いるものの、テスト時にはピクセルレベルの予測を生成しなければならないという点で困難なタスクである。このような課題に対処するため、近年の最先端手法の多くは二段階のアプローチを採用している。すなわち、1) 仮のピクセルレベルマスクを生成するための学習、2) その仮マスクを用いてFCN(畳み込みニューラルネットワーク)を用いてセマンティックセグメンテーションネットワークを訓練する、というプロセスである。しかし、こうした二段階アプローチは高品質な仮マスクを生成するために多くの補助的な技術(bells and whistles)を導入する傾向にあり、結果として手法が複雑かつ洗練されていないという問題がある。本研究では、画像レベルのラベルを活用して信頼性の高いピクセルレベルのアノテーションを生成し、完全にエンドツーエンドのネットワークを設計することで、セグメンテーションマップを予測する能力を学習することを目的とする。具体的には、まず画像分類ブランチを用いて注釈されたカテゴリに対応するクラスアクティベーションマップ(CAM)を生成し、それをさらに精査して信頼性の高い微小な物体領域または背景領域に削減する。これらの信頼性の高い領域を、並列に配置されたセグメンテーションブランチの真値ラベルとして直接用いる。このセグメンテーションブランチでは、新たに設計された密度型エネルギー損失関数(dense energy loss function)を採用して最適化を行う。この手法は一見単純であるが、Pascal VOCデータセットにおいて、二段階の最先端手法と比較して競争力のあるmIoUスコア(検証: 62.6、テスト: 62.9)を達成している。さらに、本手法を二段階アプローチに拡張することで、Pascal VOCにおいて新たな最先端性能(検証: 66.3、テスト: 66.5)を達成した。