HyperAIHyperAI

Command Palette

Search for a command to run...

Franca : Regroupement emboîté de type Matryoshka pour l'apprentissage de représentations visuelles à grande échelle

Shashanka Venkataramanan Valentinos Pariza Mohammadreza Salehi Lukas Knobel Spyros Gidaris Elias Ramzi Andrei Bursuc Yuki M. Asano

Résumé

Nous présentons Franca (prononcé Fran-ka) : le premier modèle fondamental de vision entièrement open-source (données, code, poids) qui égale et dépasse dans de nombreux cas les performances des modèles propriétaires de pointe tels que DINOv2, CLIP, SigLIPv2, etc. Notre approche repose sur un pipeline d'entraînement transparent inspiré par Web-SSL et utilise des données publiquement disponibles : ImageNet-21K et un sous-ensemble de ReLAION-2B. Au-delà de la mise à disposition du modèle, nous abordons des limitations critiques des méthodes de clustering en apprentissage auto-supervisé (SSL). Bien que les modèles modernes s'appuient sur l'attribution de caractéristiques d'image à de grands livres de codes via des algorithmes de clustering comme Sinkhorn-Knopp, ils ne prennent pas en compte l'ambiguïté inhérente aux sémantiques du clustering. Pour remédier à cela, nous introduisons un projecteur de clustering multi-têtes à efficacité paramétrique basé sur des représentations emboîtées Matryoshka. Cette conception affine progressivement les caractéristiques en clusters de plus en plus fins sans augmenter la taille du modèle, permettant ainsi une performance élevée tout en restant économiquement rentable en termes de mémoire. De plus, nous proposons une nouvelle stratégie de désentrelacement positionnel qui supprime explicitement les biais positionnels des représentations denses, améliorant ainsi l'encodage du contenu sémantique. Cela se traduit par des gains constants sur plusieurs benchmarks downstream, démontrant l'utilité d'espaces de caractéristiques plus propres. Nos contributions établissent un nouveau standard pour les modèles visuels transparents et performants et ouvrent la voie vers des modèles fondamentaux plus reproductibles et généralisables pour la communauté AI plus large. Le code et les points de contrôle du modèle sont disponibles à l'adresse suivante : https://github.com/valeoai/Franca.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp