16 天前

DINOv2:无监督学习鲁棒视觉特征

Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Hervé Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski
DINOv2:无监督学习鲁棒视觉特征
摘要

近年来,自然语言处理领域在大规模数据上进行模型预训练方面的突破,为计算机视觉领域类似的基础模型发展开辟了道路。这类模型能够通过生成通用视觉特征(即无需微调即可在不同图像分布和任务间通用的特征),极大简化系统中图像的使用。本研究证明,若在来自多样化来源的充分筛选数据上进行训练,现有的预训练方法,尤其是自监督学习方法,完全可以生成此类通用视觉特征。我们重新审视了现有方法,并整合多种技术,实现了在数据量和模型规模上的可扩展预训练。大部分技术贡献旨在加速并稳定大规模训练过程。在数据方面,我们提出了一种自动化流程,构建了一个专用于训练、具有多样性且经过精心筛选的图像数据集,而非像以往自监督学习研究中通常采用的未经筛选的数据。在模型方面,我们训练了一个参数量达10亿(1B)的视觉Transformer模型(ViT,Dosovitskiy et al., 2020),并将其知识蒸馏至一系列更小的模型,这些模型在图像级和像素级的多数基准测试中,性能超越了当前最佳的通用视觉特征模型——OpenCLIP(Ilharco et al., 2021)。