2 天前

DINOv3

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
DINOv3
摘要

自监督学习有望彻底消除对人工数据标注的依赖,使模型能够无缝扩展至大规模数据集和更大规模的网络架构。由于不针对特定任务或领域进行定制,这种训练范式具备从多样化数据源(从自然图像到航拍图像)中学习视觉表征的潜力,仅需一个统一的算法即可实现。本技术报告介绍了DINOv3,这是迈向这一愿景的重要里程碑,其核心在于采用简单但高效的策略。首先,我们通过精心的数据准备、架构设计与优化,充分实现了数据集规模与模型规模同步扩大的优势。其次,我们提出一种名为“Gram锚定”(Gram anchoring)的新方法,有效解决了长期训练过程中密集特征图性能退化这一长期存在 yet 未被解决的问题。最后,我们引入后处理策略,进一步提升了模型在分辨率、模型规模以及与文本对齐方面的灵活性。结果表明,我们提出的一种多功能视觉基础模型,在无需微调的情况下,于广泛的应用场景中均超越了现有的专用最先进方法。DINOv3能够生成高质量的密集特征,在各类视觉任务中表现出色,显著优于以往的自监督与弱监督基础模型。此外,我们还发布了DINOv3视觉模型系列,旨在通过提供可扩展的解决方案,应对多样化的资源约束与部署场景,推动各类任务与数据集上的技术水平全面提升。

DINOv3 | 最新论文 | HyperAI超神经