11 天前

利用隐式正例进行无监督语义分割

Hyun Seok Seong, WonJun Moon, SuBeen Lee, Jae-Pil Heo
利用隐式正例进行无监督语义分割
摘要

像素级标注的人力需求急剧增长,推动了无监督语义分割技术的兴起。尽管近期采用视觉Transformer(ViT)主干网络的方法展现出卓越的性能,但在任务特定的训练指导以及局部语义一致性方面仍存在不足。为解决上述问题,我们通过挖掘隐式正样本(hidden positives)来实施对比学习,以学习丰富的语义关系并保障局部区域内的语义一致性。具体而言,我们基于固定预训练主干网络和正在训练的分割头所定义的特征相似性,分别发现每组锚点(anchor)对应的两类全局隐式正样本:一类为与任务无关的隐式正样本,另一类为任务相关的隐式正样本。通过逐步增强后一类正样本的贡献,促使模型逐步捕捉任务特定的语义特征。此外,我们提出一种梯度传播策略,以学习相邻图像块之间的语义一致性。该策略基于一个基本假设:相邻图像块具有高度相似的语义。具体实现中,我们将损失函数按预设的相似度评分,以比例方式传播至局部隐式正样本——即语义上相近的邻近图像块。通过上述训练机制,我们所提出的模型在COCO-Stuff、Cityscapes和Potsdam-3三个基准数据集上均取得了新的最先进(SOTA)性能。相关代码已开源,地址为:https://github.com/hynnsk/HP。