2 个月前
ViCE:通过超像素化和对比聚类分配改进密集表示学习
Robin Karlsson; Tomoki Hayashi; Keisuke Fujii; Alexander Carballo; Kento Ohtani; Kazuya Takeda

摘要
近期的自监督模型已经展示了与监督方法相当甚至更好的性能,为人工智能系统从几乎无限的数据中学习视觉表示开辟了新的途径。然而,这些方法通常基于分类,因此在学习高分辨率特征图以保留精确的空间信息方面效果不佳。本研究引入超像素(superpixels)来改进密集且语义丰富的视觉概念嵌入的自监督学习。将图像分解为少量视觉连贯的区域可以将计算复杂度降低$\mathcal{O}(1000)$倍,同时保留细节。实验结果表明,对区域进行对比可以提高对比学习方法的有效性,扩展其在高分辨率图像上的适用性,改善过聚类(overclustering)性能,并且超像素优于网格(grids),区域掩码(regional masking)也能提升性能。通过在Cityscapes数据集上改进无监督语义分割基准以及在COCO数据集上改进卷积模型的性能,我们展示了所提出的密集嵌入的表达能力。