HyperAI
il y a 10 jours

Franca : Regroupement emboîté de type Matryoshka pour l'apprentissage de représentations visuelles à grande échelle

Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano
Franca : Regroupement emboîté de type Matryoshka pour l'apprentissage de représentations visuelles à grande échelle
Résumé

Nous présentons Franca (prononcé Fran-ka) : le premier modèle fondamental de vision entièrement open-source (données, code, poids) qui égale et dépasse dans de nombreux cas les performances des modèles propriétaires de pointe tels que DINOv2, CLIP, SigLIPv2, etc. Notre approche repose sur un pipeline d'entraînement transparent inspiré par Web-SSL et utilise des données publiquement disponibles : ImageNet-21K et un sous-ensemble de ReLAION-2B. Au-delà de la mise à disposition du modèle, nous abordons des limitations critiques des méthodes de clustering en apprentissage auto-supervisé (SSL). Bien que les modèles modernes s'appuient sur l'attribution de caractéristiques d'image à de grands livres de codes via des algorithmes de clustering comme Sinkhorn-Knopp, ils ne prennent pas en compte l'ambiguïté inhérente aux sémantiques du clustering. Pour remédier à cela, nous introduisons un projecteur de clustering multi-têtes à efficacité paramétrique basé sur des représentations emboîtées Matryoshka. Cette conception affine progressivement les caractéristiques en clusters de plus en plus fins sans augmenter la taille du modèle, permettant ainsi une performance élevée tout en restant économiquement rentable en termes de mémoire. De plus, nous proposons une nouvelle stratégie de désentrelacement positionnel qui supprime explicitement les biais positionnels des représentations denses, améliorant ainsi l'encodage du contenu sémantique. Cela se traduit par des gains constants sur plusieurs benchmarks downstream, démontrant l'utilité d'espaces de caractéristiques plus propres. Nos contributions établissent un nouveau standard pour les modèles visuels transparents et performants et ouvrent la voie vers des modèles fondamentaux plus reproductibles et généralisables pour la communauté AI plus large. Le code et les points de contrôle du modèle sont disponibles à l'adresse suivante : https://github.com/valeoai/Franca.