DINOv3

L’apprentissage auto-supervisé promet de supprimer le besoin d’étiquetage manuel des données, permettant aux modèles de s’échelonner sans effort sur de très grandes bases de données et des architectures de plus en plus grandes. En n’étant pas spécifiquement conçu pour des tâches ou domaines particuliers, ce paradigme d’apprentissage a le potentiel d’apprendre des représentations visuelles à partir de sources diverses — allant d’images naturelles à des images aériennes — à l’aide d’un seul algorithme. Ce rapport technique présente DINOv3, une avancée majeure vers la réalisation de cette vision, grâce à des stratégies simples mais efficaces. Premièrement, nous tirons parti de l’avantage de l’augmentation simultanée de la taille des données et du modèle, grâce à une préparation soigneuse des données, une conception optimisée et une mise en œuvre efficace. Deuxièmement, nous introduisons une nouvelle méthode appelée Gram anchoring, qui permet de résoudre de manière efficace un problème connu mais non résolu : la dégradation des cartes de caractéristiques denses au cours de longues phases d’entraînement. Enfin, nous appliquons des stratégies post-hoc qui renforcent davantage la flexibilité de nos modèles en matière de résolution, de taille du modèle et d’alignement avec le texte. En conséquence, nous proposons un modèle fondamental visuel polyvalent qui surpasser le meilleur état de l’art spécialisé dans une large gamme de contextes, sans adaptation fine (fine-tuning). DINOv3 génère des caractéristiques denses de haute qualité, obtenant des performances exceptionnelles sur diverses tâches visuelles, dépassant de manière significative les modèles fondamentaux précédents, qu’ils soient auto-supervisés ou faiblement supervisés. Nous mettons également à disposition la suite de modèles visuels DINOv3, conçue pour faire progresser l’état de l’art sur une large palette de tâches et de types de données, en offrant des solutions évolutives adaptées à diverses contraintes de ressources et scénarios de déploiement.