
摘要
我们提出了一种基于局部与全局高层次图像特征之间互信息最大化的无监督语义图像分割新方法。本工作的核心思想是利用自监督图像表征学习领域的最新进展。现有的表征学习方法通常生成一个能够捕捉整幅图像语义信息的单一高层次特征,而我们则通过计算多个高层次特征,每个特征分别对应某一特定语义类别的图像区域。为此,我们设计了一种新颖的两阶段学习流程,包括分割阶段和互信息最大化阶段。在第一阶段,基于局部特征与全局特征对图像进行分割;在第二阶段,最大化局部特征与其所属类别高层次特征之间的互信息。训练过程中,仅使用无标签图像,并从随机网络初始化开始。在定量与定性评估方面,我们采用现有标准基准数据集以及本文首次提出的COCO-Persons数据集作为具有挑战性的新基准。实验结果表明,InfoSeg显著优于当前最先进的方法,例如在COCO-Stuff数据集上,像素准确率(Pixel Accuracy)指标相对提升达26%。