11日前

視覚語学習とハイブリッドプーリングを用いた弱教師付きセマンティックセグメンテーション

Lixiang Ru, Bo Du, Yibing Zhan, Chen Wu
視覚語学習とハイブリッドプーリングを用いた弱教師付きセマンティックセグメンテーション
要約

弱教師付きセマンティックセグメンテーション(WSSS)手法は、画像レベルのラベルを用いて分類ネットワークを学習し、その出力としてクラス活性化マップ(CAMs)を初期の粗いセグメンテーションラベルとして生成する。しかし、現行のWSSS手法は、その採用するCAMsが1)部分的な判別性のあるオブジェクト領域にのみ注目し、2)無関係な背景領域を多く含むという点で、依然として十分な性能を発揮できていない。これらの問題は、分類ネットワークの学習において画像レベルの監視情報のみが用いられ、グローバルな情報を集約する構造に起因している。本研究では、視覚単語学習モジュールとハイブリッドプーリング手法を提案し、これらを分類ネットワークに組み込むことで上記の課題を緩和する。視覚単語学習モジュールでは、分類ネットワークが細粒度の視覚単語ラベルを学習するように制約することで、オブジェクトのより広範な領域を発見できるようにする。具体的には、コードブックを用いて視覚単語を学習し、その更新には2つの提案手法、すなわち学習ベース戦略とメモリバンク戦略を用いる。CAMsの2番目の欠点は、グローバル平均プーリングと局所的な判別情報の両方を組み合わせたハイブリッドプーリングによって軽減される。これにより、オブジェクトの完全性を確保しつつ、背景領域の影響を低減することが可能となる。本手法はPASCAL VOC 2012およびMS COCO 2014データセット上で評価された。追加のサリエンシー事前知識を用いずに、PASCAL VOCデータセットの$val$および$test$セットにおいて、それぞれ70.6%および70.7%のmIoUを達成し、MS COCOデータセットの$val$セットでは36.2%のmIoUを記録した。これらは、最先端のWSSS手法を大きく上回る性能である。

視覚語学習とハイブリッドプーリングを用いた弱教師付きセマンティックセグメンテーション | 最新論文 | HyperAI超神経