8 个月前

摘要

近期的自监督模型已经展示了与监督方法相当甚至更好的性能，为人工智能系统从几乎无限的数据中学习视觉表示开辟了新的途径。然而，这些方法通常基于分类，因此在学习高分辨率特征图以保留精确的空间信息方面效果不佳。本研究引入超像素（superpixels）来改进密集且语义丰富的视觉概念嵌入的自监督学习。将图像分解为少量视觉连贯的区域可以将计算复杂度降低 $\mathcal{O}(1000)$ 倍，同时保留细节。实验结果表明，对区域进行对比可以提高对比学习方法的有效性，扩展其在高分辨率图像上的适用性，改善过聚类（overclustering）性能，并且超像素优于网格（grids），区域掩码（regional masking）也能提升性能。通过在Cityscapes数据集上改进无监督语义分割基准以及在COCO数据集上改进卷积模型的性能，我们展示了所提出的密集嵌入的表达能力。