Ancrage de tout : propriétés émergentes de localisation dans les transformateurs vision-langage

Les modèles fondamentaux vision-langage ont démontré des performances remarquables dans diverses configurations zero-shot, telles que la recherche d’images, la classification ou la génération de légendes. Toutefois, jusqu’à présent, ces modèles semblent être en retard lorsqu’il s’agit de localisation zero-shot d’expressions référentielles et d’objets dans les images, ce qui les pousse à nécessiter un ajustage fin (fine-tuning) pour cette tâche. Dans cet article, nous montrons que les modèles pré-entraînés vision-langage (VL) permettent effectivement la localisation d’objets à vocabulaire ouvert en zero-shot, sans aucun ajustage fin. Pour exploiter ces capacités, nous proposons un module de localisation universelle, appelé GEM (Grounding Everything Module), qui généralise l’idée d’attention valeur-valeur introduite par CLIPSurgery à un chemin d’attention auto-auto. Nous démontrons que le concept d’attention auto-auto correspond à un processus de regroupement (clustering), forçant ainsi les groupes de tokens issus du même objet à être similaires, tout en préservant l’alignement avec l’espace linguistique. Pour guider davantage la formation de ces groupes, nous introduisons une série de régularisations permettant au modèle de généraliser finalement à travers différents jeux de données et architectures (backbones). Nous évaluons le cadre GEM proposé sur diverses tâches et jeux de données de benchmark pour la segmentation sémantique. Les résultats montrent que GEM non seulement surpasser les autres méthodes de localisation à vocabulaire ouvert sans entraînement, mais aussi atteindre des performances de pointe sur le récent benchmark à grande échelle OpenImagesV7 pour la segmentation.