
摘要
近期,多种具有竞争力的方法通过最大化数据增强后生成的表示之间的互信息(mutual information),来解决无监督表示学习问题。由此获得的表示对随机增强策略具有不变性,可直接用于聚类或分类等下游任务。然而,数据增强通常保留了图像的诸多固有特性,因此存在因依赖于数据中易于识别的浅层特征而导致表示选择次优的风险。我们证明,诸如随机梯度优化等贪婪或局部优化方法在最大化互信息时,容易陷入局部最优解,所得到的表示在面对复杂下游任务时表现也相对不理想。此前的研究并未明确识别或解决这一问题。为此,我们提出了深度分层对象分组(Deep Hierarchical Object Grouping, DHOG)方法,该方法以层级化的方式计算图像的多个不同离散表示,最终生成更优地逼近互信息目标的表示。我们还发现,这些表示在对数据进行潜在对象类别分组这一下游任务中,具有更强的语义对齐能力。我们在无监督聚类任务上对DHOG进行了测试——这本身即为一项自然的下游评估任务,因为目标表示本质上是对数据的离散标签。实验结果表明,DHOG在三个主流基准测试中均取得了新的最先进性能,且无需依赖以往方法所必需的预滤波或Sobel边缘检测等预处理步骤。在准确性方面,我们实现了显著提升:在CIFAR-10上提升4.3%,在CIFAR-100-20上提升1.5%,在SVHN上提升7.2%。