11 天前
自监督ResNet的极限探索:在ImageNet上无需标签,我们能否超越有监督学习?
Nenad Tomasev, Ioana Bica, Brian McWilliams, Lars Buesing, Razvan Pascanu, Charles Blundell, Jovana Mitrovic

摘要
尽管自监督方法在使用残差网络(ResNet)进行表征学习方面取得了近期进展,但在ImageNet分类基准上的表现仍逊于有监督学习,这限制了其在性能要求较高的场景中的应用。基于ReLIC [Mitrovic et al., 2021] 提出的先前理论洞察,我们进一步引入了额外的归纳偏置(inductive biases)至自监督学习框架中。为此,我们提出了一种新的自监督表征学习方法——ReLICv2,该方法结合了显式的不变性损失(explicit invariance loss)与在多种合理构建的数据视图上设计的对比学习目标,以避免学习到虚假相关性,从而获得更具信息量的表征。在ResNet50上进行线性评估时,ReLICv2在ImageNet上达到了77.1%的Top-1准确率,相较于此前的最先进方法实现了绝对提升+1.5%;在更大规模的ResNet模型上,ReLICv2最高可达到80.6%的准确率,较以往自监督方法的提升幅度最高达+2.3%。尤为突出的是,ReLICv2是首个在一系列ResNet架构上,通过完全一致的对比设置(like-for-like comparison)持续超越有监督基线的无监督表征学习方法。此外,利用ReLICv2所学习到的表征在鲁棒性和可迁移性方面均优于以往方法,在图像分类与语义分割任务中均展现出更强的分布外(out-of-distribution)泛化能力。最后,我们还表明,尽管采用ResNet作为编码器,ReLICv2的性能仍可与当前最先进的自监督视觉Transformer模型相媲美。