HyperAIHyperAI
il y a 16 jours

DINOv2 : apprentissage de caractéristiques visuelles robustes sans supervision

Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Hervé Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski
DINOv2 : apprentissage de caractéristiques visuelles robustes sans supervision
Résumé

Les récents progrès en traitement du langage naturel, notamment dans le préentraînement des modèles sur de grandes quantités de données, ont ouvert la voie à des modèles fondamentaux similaires en vision par ordinateur. Ces modèles pourraient grandement simplifier l’utilisation des images dans tout système en générant des caractéristiques visuelles polyvalentes — c’est-à-dire des représentations efficaces sur différentes distributions d’images et pour diverses tâches, sans nécessiter de finetuning. Ce travail démontre que les méthodes existantes de préentraînement, en particulier les approches auto-supervisées, peuvent produire de telles caractéristiques si elles sont entraînées sur suffisamment de données soigneusement sélectionnées provenant de sources diverses. Nous reprenons et réexaminons les approches existantes, en combinant différentes techniques afin d’échelonner notre préentraînement en termes de volume de données et de taille du modèle. La plupart des contributions techniques visent à accélérer et à stabiliser l’entraînement à grande échelle. En ce qui concerne les données, nous proposons une pipeline automatique pour construire un jeu de données d’images dédié, diversifié et soigneusement curaté, contrairement aux jeux de données non curatés habituellement utilisés dans la littérature auto-supervisée. En matière de modèles, nous entraînons un modèle ViT (Dosovitskiy et al., 2020) de 1 milliard de paramètres, puis le distillons en une série de modèles plus petits, qui surpassent les meilleures caractéristiques polyvalentes disponibles à ce jour, OpenCLIP (Ilharco et al., 2021), sur la plupart des benchmarks, tant au niveau des images que des pixels.

DINOv2 : apprentissage de caractéristiques visuelles robustes sans supervision | Articles de recherche récents | HyperAI