
摘要
在本工作中,我们提出了一种完全自监督的语义分割框架(FS⁴)。在开放世界场景下,从端到端构建定制化模型时,一种完全自举(fully bootstrapped)的语义分割策略至关重要,它能够显著减少对大量标注数据的依赖,具有重要的现实应用价值。尽管近年来自监督语义分割方法取得了显著进展,但现有方法大多仍严重依赖于全监督预训练模型,难以实现真正意义上的完全自监督流程。为解决这一问题,我们提出了一种面向语义分割的自举训练机制,充分利用全局语义知识进行自监督学习,其核心在于所提出的金字塔全局引导(Pyramid-Global-Guided, PGG)策略与上下文感知嵌入(Context-Aware Embedding, CAE)模块。具体而言,我们通过像素聚类与分配实现分割监督。为避免聚类过程陷入混乱,本文提出两项关键技术:其一,设计了金字塔全局引导(PGG)训练策略,利用由无监督特征分组生成的多尺度图像/补丁级伪标签对模型进行监督。这些稳定可靠的全局与金字塔层级语义伪标签能够有效防止模型学习过多杂乱区域,或退化为单一背景类别;其二,进一步提出上下文感知嵌入(CAE)模块,通过非平凡的方式融合空间上及外观上邻近的上下文信息,生成更具判别性的全局特征嵌入。我们在大规模COCO-Stuff数据集上对所提方法进行了评估,结果表明,该方法在“物体”(things)与“非物体”(stuff)类别上均实现了7.19的mIoU提升,显著优于现有自监督方法。