
摘要
将聚类与表示学习相结合,是深度神经网络无监督学习中最具前景的方法之一。然而,若简单地将二者结合,往往会导致病态的学习问题,并产生退化的解。本文提出了一种新颖且具有理论依据的学习范式,有效解决了上述问题。该方法通过最大化标签与输入数据索引之间的互信息来实现。我们证明,这一准则可将标准的交叉熵最小化推广为一个最优传输问题,并采用一种快速的Sinkhorn-Knopp算法变体,高效求解包含数百万张输入图像和数千个类别的大规模问题。所提出的方法能够自动为视觉数据打标签,从而在无需人工标注的情况下训练出具有高度竞争力的图像表示。在SVHN、CIFAR-10、CIFAR-100和ImageNet数据集上,该方法在AlexNet和ResNet-50模型上均取得了当前最优的表示学习性能,并首次实现了超越监督学习Pascal VOC目标检测基线的自监督AlexNet模型。相关代码与模型均已公开。