il y a 11 jours

Apprentissage de prompt conditionnel pour les modèles vision-langage

Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu

Résumé

À la suite de l’émergence de modèles vision-langage pré-entraînés puissants tels que CLIP, il devient essentiel d’étudier des méthodes permettant d’adapter ces modèles à des jeux de données spécifiques (downstream). Une méthode récemment proposée, appelée Optimisation de Contexte (CoOp), introduit le concept d’apprentissage de prompt — une tendance récente en traitement du langage naturel (NLP) — dans le domaine visuel afin d’adapter les modèles vision-langage pré-entraînés. Plus précisément, CoOp transforme les mots contextuels d’un prompt en un ensemble de vecteurs apprenables. Grâce à seulement quelques images étiquetées, cette approche permet d’obtenir des améliorations significatives par rapport aux prompts manuels soigneusement ajustés. Dans notre étude, nous identifions un problème critique de CoOp : les contextes appris ne sont pas généralisables à des classes non vues plus larges au sein du même jeu de données, ce qui suggère que CoOp surapprend les classes de base observées durant l’entraînement. Pour résoudre ce problème, nous proposons une méthode appelée Optimisation de Contexte Conditionnel (CoCoOp), qui étend CoOp en introduisant un réseau neuronal léger pour générer, pour chaque image, un token (vecteur) conditionnel à l’entrée. Contrairement aux prompts statiques de CoOp, nos prompts dynamiques s’adaptent à chaque instance, rendant ainsi la méthode moins sensible aux décalages de classes. Des expériences étendues montrent que CoCoOp généralise considérablement mieux que CoOp aux classes non vues, et même présente une transférabilité prometteuse au-delà d’un seul jeu de données ; elle offre également de meilleures performances en généralisation de domaine. Le code est disponible à l’adresse suivante : https://github.com/KaiyangZhou/CoOp.