17 天前

野外视觉特征的自监督预训练

Priya Goyal, Mathilde Caron, Benjamin Lefaudeux, Min Xu, Pengchao Wang, Vivek Pai, Mannat Singh, Vitaliy Liptchinsky, Ishan Misra, Armand Joulin, Piotr Bojanowski
野外视觉特征的自监督预训练
摘要

近期,像MoCo、SimCLR、BYOL和SwAV等自监督学习方法已显著缩小了与监督学习方法之间的差距。然而,这些成果均是在受控环境——即经过精心筛选的ImageNet数据集——下取得的。自监督学习的核心前提在于,其能够从任意随机图像以及任意无边界的数据集中进行学习。在本项工作中,我们通过在大量随机、未经筛选的图像上训练大规模模型,且不依赖任何标注信息,来检验自监督学习是否真正能够满足这一预期。我们最终提出的自监督模型——SElf-supERvised(SEER),采用参数量达13亿的RegNetY架构,在10亿张随机图像上,使用512块GPU进行训练,取得了84.2%的top-1准确率,较现有最优的自监督预训练模型提升了1个百分点,验证了自监督学习在真实世界场景下的有效性。有趣的是,我们还发现,自监督模型具备出色的少样本学习能力,在仅使用ImageNet数据集10%样本的情况下,仍能达到77.9%的top-1准确率。代码已开源:https://github.com/facebookresearch/vissl