
要約
本論文では、画像レベルのクラスラベルを教師データとして利用する新しいインスタンスセグメンテーション学習手法を提案します。当手法は、訓練画像の擬似インスタンスセグメンテーションラベルを生成し、それらを使用して完全に監督されたモデルを学習します。擬似ラベルの生成には、まず画像分類モデルのアテンションマップから各オブジェクトクラスの確信度が高いシード領域を特定し、それらを伝播させて正確な境界を持つ全インスタンス領域を見つけ出す方法を採用しています。この目的のために、私たちはIRNet(Instance Relation Network)を提案します。IRNetは個々のインスタンスの大まかな領域を推定し、異なるオブジェクトクラス間の境界を検出します。これにより、シードにインスタンスラベルを割り当てることができ、そのラベルが境界内に伝播され、全インスタンス領域が正確に推定されます。さらに、IRNetはアテンションマップ上の画素間関係で学習されるため、追加の教師データは必要ありません。当手法とIRNetを使用することで、PASCAL VOC 2012データセットにおいて優れた性能が達成され、同じレベルの教師データで学習した従来の最先端手法だけでなく、より強い教師データに依存する一部の従来モデルも上回りました。