Lâchez prise sur vos étiquettes avec le transfert non supervisé

Les modèles fondation vision-langage ont permis une transférabilité remarquable à zéro exemple des représentations pré-entraînées à une large gamme de tâches en aval. Cependant, pour résoudre une nouvelle tâche, la transférabilité à zéro exemple nécessite encore une guidance humaine pour définir les catégories visuelles présentes dans les données. Dans cet article, nous montrons que le transfert entièrement non supervisé émerge lors de la recherche d'une étiquetage de jeu de données qui induit des classifieurs à marge maximale dans les espaces de représentation de différents modèles fondation. Nous présentons TURTLE, une méthode entièrement non supervisée qui utilise efficacement ce principe directeur pour découvrir l'étiquetage sous-jacent d'un jeu de données en aval sans aucune supervision et sans apprentissage spécifique des représentations liées à la tâche. Nous évaluons TURTLE sur un ensemble varié de 26 jeux de données et démontrons qu'il atteint de nouvelles performances record en non supervisé. De plus, bien que totalement non supervisé, TURTLE surpasse les baselines de transférabilité à zéro exemple sur une large gamme de jeux de données. En particulier, TURTLE égale la performance moyenne de CLIP à zéro exemple sur 26 jeux de données en utilisant le même espace de représentation, couvrant une large gamme d'architectures et de tailles de modèles. En guidant la recherche d'étiquetage sous-jacent par les espaces de représentation de deux modèles fondation, TURTLE dépasse les baselines de transférabilité à zéro exemple et d'ajustement non supervisé des prompts, démontrant ainsi l'étonnante puissance et efficacité du transfert non supervisé.