il y a 6 mois

Maxime Oquab Timothée Darcet Théo Moutakanni Huy Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby

Résumé

Les récents progrès en traitement du langage naturel, notamment dans le préentraînement des modèles sur de grandes quantités de données, ont ouvert la voie à des modèles fondamentaux similaires en vision par ordinateur. Ces modèles pourraient grandement simplifier l’utilisation des images dans tout système en générant des caractéristiques visuelles polyvalentes — c’est-à-dire des représentations efficaces sur différentes distributions d’images et pour diverses tâches, sans nécessiter de finetuning. Ce travail démontre que les méthodes existantes de préentraînement, en particulier les approches auto-supervisées, peuvent produire de telles caractéristiques si elles sont entraînées sur suffisamment de données soigneusement sélectionnées provenant de sources diverses. Nous reprenons et réexaminons les approches existantes, en combinant différentes techniques afin d’échelonner notre préentraînement en termes de volume de données et de taille du modèle. La plupart des contributions techniques visent à accélérer et à stabiliser l’entraînement à grande échelle. En ce qui concerne les données, nous proposons une pipeline automatique pour construire un jeu de données d’images dédié, diversifié et soigneusement curaté, contrairement aux jeux de données non curatés habituellement utilisés dans la littérature auto-supervisée. En matière de modèles, nous entraînons un modèle ViT (Dosovitskiy et al., 2020) de 1 milliard de paramètres, puis le distillons en une série de modèles plus petits, qui surpassent les meilleures caractéristiques polyvalentes disponibles à ce jour, OpenCLIP (Ilharco et al., 2021), sur la plupart des benchmarks, tant au niveau des images que des pixels.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Apprentissage Profond

Vision Par Ordinateur

Domaine De Recherche

Approche/Framework

Vision Par Ordinateur

Tâche

Maxime Oquab Timothée Darcet Théo Moutakanni Huy Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Apprentissage Profond

Vision Par Ordinateur

Domaine De Recherche

Approche/Framework

Vision Par Ordinateur

Tâche

Maxime Oquab Timothée Darcet Théo Moutakanni Huy Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

DINOv2 : apprentissage de caractéristiques visuelles robustes sans supervision

Maxime Oquab Timothée Darcet Théo Moutakanni Huy Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby16 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DINOv2 : apprentissage de caractéristiques visuelles robustes sans supervision

Maxime Oquab Timothée Darcet Théo Moutakanni Huy Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby16 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DINOv2 : apprentissage de caractéristiques visuelles robustes sans supervision

Maxime Oquab Timothée Darcet Théo Moutakanni Huy Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby16 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Maxime Oquab Timothée Darcet Théo Moutakanni Huy Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby

Maxime Oquab Timothée Darcet Théo Moutakanni Huy Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby

Maxime Oquab Timothée Darcet Théo Moutakanni Huy Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby