Apprentissage de l'induction pour les modèles vision-langue

Les grands modèles pré-entraînés de vision-langue comme CLIP ont montré un grand potentiel pour apprendre des représentations transférables à une large gamme de tâches en aval. Contrairement à l'apprentissage traditionnel des représentations, qui repose principalement sur des étiquettes discrétisées, la pré-entraîne de la vision-langue aligne les images et les textes dans un espace de caractéristiques commun, ce qui permet le transfert zéro-shot vers une tâche en aval par le biais d'une incitation, c'est-à-dire que les poids de classification sont synthétisés à partir d'un langage naturel décrivant les classes d'intérêt.Dans cette étude, nous montrons qu'un défi majeur pour le déploiement pratique de ces modèles est l'ingénierie des incitations, qui nécessite une expertise du domaine et est extrêmement fastidieuse -- il faut consacrer beaucoup de temps à l'affinement des mots car un changement minime dans la formulation peut avoir un impact considérable sur les performances. Inspirés par les récentes avancées dans la recherche sur l'ingénierie des incitations en traitement du langage naturel (NLP), nous proposons l'Optimisation du Contexte (CoOp), une approche simple spécifiquement conçue pour adapter des modèles de vision-langue similaires à CLIP aux tâches d'identification d'images en aval.Plus précisément, CoOp modélise les mots contextuels d'une incitation avec des vecteurs apprenables tout en conservant fixes tous les paramètres pré-entraînés. Pour gérer différentes tâches d'identification d'images, nous fournissons deux implémentations de CoOp : un contexte unifié et un contexte spécifique aux classes. À travers des expériences exhaustives sur 11 jeux de données, nous démontrons que CoOp nécessite aussi peu qu'une ou deux incitations pour surpasser les incitations élaborées manuellement avec une marge confortable et est capable d'obtenir des améliorations significatives par rapport à l'ingénierie des incitations avec plus d'exemples, par exemple, avec 16 incitations, le gain moyen est d'environ 15 % (avec le meilleur atteignant plus de 45 %). Malgré son approche basée sur l'apprentissage, CoOp offre des performances exceptionnelles de généralisation inter-domaines comparées au modèle zéro-shot utilisant des incitations élaborées manuellement.