Apprentissage d'un prompt invariant par domaine pour les modèles vision-langage

L’apprentissage de prompts est l’une des approches les plus efficaces et les plus en vogue pour adapter des modèles fondamentaux vision-langage puissants, tels que CLIP, à des jeux de données spécifiques en ajustant des vecteurs de prompts apprenables à partir de très peu d’exemples. Toutefois, bien que l’apprentissage de prompts atteigne des performances remarquables sur des données du domaine d’entraînement, il fait face à un défi majeur : la généralisation à des classes et domaines inédits. Certaines méthodes existantes tentent de relever ce défi en générant de manière adaptative des prompts différents pour des tokens ou des domaines distincts, mais elles négligent souvent la capacité des prompts appris à se généraliser à des domaines inconnus. Dans ce papier, nous proposons un nouveau paradigme d’apprentissage de prompts qui génère directement des prompts invariants par rapport au domaine, capables de se généraliser à des domaines inédits, que nous appelons MetaPrompt. Plus précisément, nous introduisons un réseau d’ajustement de prompts à double modalité, conçu pour générer des prompts à partir des modalités image et texte. Grâce à une nouvelle fonction de perte contrastive asymétrique, les représentations issues du modèle vision-langage pré-entraîné servent de supervision pour renforcer la capacité de généralisation des prompts appris. Plus important encore, nous proposons un algorithme d’ajustement de prompts basé sur l’apprentissage métacognitif, qui impose explicitement que le prompt spécifique à une tâche, ajusté pour un domaine ou une classe donné, parvienne également à obtenir de bonnes performances dans un autre domaine ou une autre classe. Des expériences étendues sur 11 jeux de données pour la généralisation de base vers de nouvelles classes, ainsi que sur 4 jeux de données pour la généralisation de domaine, démontrent que notre méthode surpasse de manière cohérente et significative les approches existantes.