
摘要
我们提出了一种无需标注数据的语义分割新框架,该框架基于聚类方法。现有的现成聚类方法通常仅适用于经过筛选、单标签且以物体为中心的图像,然而现实世界中的数据大多为未筛选、多标签且以场景为中心的。为此,我们将聚类从图像层面拓展至像素层面,并为每张图像中不同的实例分别分配独立的聚类归属。然而,仅依赖像素级特征相似性难以学习高层次的语义概念,且容易过拟合于低层次的视觉线索。为此,我们提出一种方法,引入几何一致性作为归纳偏置,以学习对光照和几何变化的不变性与等变性。借助这一新颖的学习目标,我们的框架能够有效捕捉高层次的语义概念。所提出的PiCIE(基于不变性与等变性的像素级特征聚类)方法是首个无需任何超参数调优或任务特定预处理即可同时对“事物”(things)与“东西”(stuff)类别进行语义分割的方法。在COCO和Cityscapes数据集上,我们的方法显著优于现有基线,分别实现了+17.5%的准确率(Acc)和+4.5%的mIoU提升。我们进一步验证了PiCIE能够为标准的监督训练提供更优的初始化。代码已开源,地址为:https://github.com/janghyuncho/PiCIE。