11 天前

如果您的数据分布发生偏移,请使用自学习(self-learning)

Evgenia Rusak, Steffen Schneider, George Pachitariu, Luisa Eck, Peter Gehler, Oliver Bringmann, Wieland Brendel, Matthias Bethge
如果您的数据分布发生偏移,请使用自学习(self-learning)
摘要

我们证明,诸如熵最小化和伪标签(pseudo-labeling)等自学习技术在应对系统性领域偏移时,能够简单而有效地提升已部署计算机视觉模型的性能。我们开展了大规模的广泛实验,结果表明,无论模型架构、预训练方法或分布偏移类型如何,这些方法均能带来一致的性能提升。与此同时,自学习技术在实际应用中也极为简便:它无需访问原始训练数据或训练方案,对超参数选择具有较强的鲁棒性,实现方式直接明了,且仅需少量适应轮次(adaptation epochs)即可完成。这使得自学习技术对所有在真实世界中应用机器学习算法的实践者而言都极具吸引力。我们在多个基准数据集上取得了当前最先进的自适应性能:CIFAR10-C 上误差为 8.5%,ImageNet-C 上 mCE 为 22.0%,ImageNet-R 上误差为 17.4%,ImageNet-A 上误差为 14.8%。此外,我们还对自监督适应方法的动力学特性进行了理论分析,并提出了一种新的分类数据集——ImageNet-D,该数据集即使在采用自适应方法的情况下依然极具挑战性。