6 个月前

摘要

使用弱监督和自监督策略对卷积神经网络进行预训练，正日益成为计算机视觉多个任务中的流行方法。然而，由于缺乏强判别性信号，这些预训练所学习到的表征可能过度拟合于预训练目标（例如，标签预测），从而在下游任务中泛化能力较差。本文提出一种简单而有效的策略——ClusterFit（CF），以提升预训练过程中所学视觉表征的鲁棒性。具体而言，给定一个数据集，我们首先（a）利用k-means聚类算法对预训练网络提取的特征进行聚类；随后（b）以聚类结果作为伪标签，从头开始重新训练一个新的网络。实验结果表明，聚类过程能够有效去除特征中与特定预训练任务相关的信息，从而显著降低对预训练目标的过拟合。该方法具有良好的可扩展性，适用于多种预训练框架——包括弱监督与自监督学习，涵盖图像与视频等不同模态，以及对象分类与动作识别等不同预训练任务。在11个具有不同词汇量和粒度的目标数据集上开展的大量迁移学习实验表明，ClusterFit在表征质量方面显著优于当前最先进的大规模（百万级/十亿级）弱监督图像与视频模型，以及自监督图像模型。

源 PDF