自己教師あり低ランクネットワークを用いた単段階弱教師ありおよび半教師ありセマンティックセグメンテーションの学習

限られたアノテーションを用いたセマンティックセグメンテーション、特に弱教師ありセマンティックセグメンテーション(WSSS)および半教師ありセマンティックセグメンテーション(SSSS)は、近年注目を集める難しいタスクである。主流のWSSS手法は、擬似ラベルを可能な限り正確に推定するため、複雑なマルチステージ学習戦略を採用しているが、その一方でモデルの複雑さが問題となる。これに対し、別の研究アプローチとして、1回の学習サイクルで画像レベルのラベルのみを用いて単一のネットワークを訓練する単一ステージ戦略が存在する。しかし、このような単一ステージ戦略は、不正確な擬似ラベル推定が累積的に悪影響を及ぼすため、性能が低くなる傾向にある。本論文では、単一ステージのWSSSおよびSSSSに対応する自己教師付き低ランクネットワーク(SLRNet)を提案する。SLRNetは、クロスビュー自己教師学習を採用しており、同一画像の異なる視点から同時に複数の補完的な注目力を持つ低ランク(LR)表現を予測することで、精度の高い擬似ラベルを学習する。具体的には、LR表現学習を集合的行列分解問題として再定式化し、ネットワーク学習と同時にエンドツーエンドで最適化する。得られたLR表現はノイズ情報を抑制しつつ、異なる視点間で安定した意味情報を捉えるため、入力の変動に対して頑健であり、自己教師学習の誤差への過適合を低減する。SLRNetは、以下のさまざまなラベル効率型セマンティックセグメンテーション設定に対して統一的な単一ステージフレームワークを提供可能である:1)画像レベルラベルを用いたWSSS、2)少数のピクセルレベルラベルを用いたSSSS、3)少数のピクセルレベルラベルと多数の画像レベルラベルを併用したSSSS。Pascal VOC 2012、COCO、L2IDの3つのデータセットにおける広範な実験により、本手法は多様な設定において最先端のWSSSおよびSSSS手法を上回ることを示しており、優れた汎化性能と有効性を証明している。