
摘要
近年来,大多数深度语义分割算法即使采用了基于卷积神经网络的强大层次化表示模型,仍面临较大的泛化误差问题。这一现象可归因于训练数据有限以及训练域与测试域之间存在显著的分布差异。本文提出一种多层级自监督学习模型,用于语义分割中的域适应任务。受“物体(在给定上下文条件下,大部分背景区域)的标签应与其位置无关,保持一致”这一思想的启发,我们通过使用基础模型对多个子图像进行分割,并设计相应的聚合策略,生成空间无关且语义一致(Spatially Independent and Semantically Consistent, SISC)的伪标签。同时,我们计算图像级别的伪弱标签(Pseudo Weak Labels, PWL),通过捕捉源域与目标域在隐空间中的全局上下文相似性,指导域适应过程。该机制有助于隐空间学习到更鲁棒的特征表示,尤其在目标类别像素极少(如小物体)的情况下仍能有效建模。所提出的多层级自监督学习(Multi-level Self-supervised Learning, MLSL)方法在性能上超越了现有最先进的方法(无论是自监督还是对抗学习类方法)。具体而言,在保持其他实验设置一致的前提下,采用MLSL方法在GTA-V到Cityscapes的域适应任务中,mIoU提升达5.1%;在SYNTHIA到Cityscapes的迁移任务中,mIoU提升达4.3%,显著优于当前最优方法。