
摘要
语义分割是自主智能体实现场景理解的基本且关键任务之一。近年来,监督式机器学习与神经网络的快速发展,显著提升了该任务最先进方法的性能。然而,这些方法的优异表现高度依赖于大规模标注数据集的可用性。本文提出了一种全新的全无监督语义分割方法,称为信息最大化与对抗正则化分割(Information Maximization and Adversarial Regularization Segmentation, InMARS)。受人类感知机制的启发——人类将场景解析为感知上的语义群组,而非逐像素分析,本方法首先将输入图像划分为具有语义意义的区域(即超像素)。随后,通过最大化互信息(Mutual Information Maximization)并结合对抗训练策略,将这些区域聚类为具有语义意义的类别。为适配该任务的对抗训练机制,本文引入对抗性像素噪声与空间扰动,以在深度神经网络中强制实现光照不变性与几何不变性。实验结果表明,所提方法在两个广泛使用的无监督语义分割数据集(COCO-Stuff 和 Potsdam)上均达到了当前最优性能。