用于单阶段弱监督与半监督语义分割的自监督低秩网络学习

在标注数据有限的条件下进行语义分割,例如弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)和半监督语义分割(Semi-Supervised Semantic Segmentation, SSSS),是近年来备受关注的挑战性任务。目前主流的WSSS方法通常采用复杂的多阶段训练策略,以尽可能精确地估计伪标签,但这类方法往往带来较高的模型复杂度。相比之下,另一类研究路径则致力于在单次训练周期内,仅使用图像级标签训练一个单一网络。然而,由于伪标签估计不准确所引发的误差累积效应,此类单阶段策略通常性能较差。为解决这一问题,本文提出一种自监督低秩网络(Self-supervised Low-Rank Network, SLRNet),用于单阶段WSSS与SSSS任务。SLRNet引入跨视图自监督机制,即从同一图像的不同视角中同时预测多个互补的注意力引导低秩(Low-Rank, LR)表示,以学习更精确的伪标签。具体而言,本文将低秩表示学习重新建模为一种集体矩阵分解问题,并与网络学习过程以端到端的方式联合优化。所获得的低秩表示能够有效抑制噪声信息,同时捕捉不同视角间稳定的语义特征,从而对输入变化具有更强的鲁棒性,显著降低对自监督误差的过拟合风险。SLRNet可为多种标签高效语义分割场景提供统一的单阶段框架,涵盖以下三种设置:1)仅使用图像级标签的WSSS;2)少量像素级标签的SSSS;3)同时包含少量像素级标签与大量图像级标签的SSSS。在Pascal VOC 2012、COCO以及L2ID等多个基准数据集上的大量实验表明,所提出的SLRNet在多种不同设置下均显著优于当前最先进的WSSS与SSSS方法,充分验证了其优异的泛化能力与有效性。