HyperAIHyperAI
il y a 11 jours

MaPLe : Apprentissage de prompts multi-modaux

Muhammad Uzair Khattak, Hanoona Rasheed, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan
MaPLe : Apprentissage de prompts multi-modaux
Résumé

Les modèles pré-entraînés vision-langage (V-L), tels que CLIP, ont démontré une excellente capacité de généralisation aux tâches downstream. Toutefois, ils sont sensibles au choix des phrases d’entrée (prompts) et nécessitent une sélection soigneuse des modèles de prompts pour obtenir de bons résultats. Inspirés par la littérature en traitement du langage naturel (NLP), les approches récentes d’adaptation de CLIP consistent à apprendre des prompts comme entrées textuelles afin de finetuner CLIP pour des tâches spécifiques. Nous observons que l’utilisation de la technique de prompt pour adapter les représentations dans une seule branche de CLIP (langage ou vision) est sous-optimale, car elle ne permet pas une flexibilité suffisante pour ajuster dynamiquement les deux espaces de représentation en fonction d’une tâche downstream. Dans ce travail, nous proposons une méthode d’apprentissage de prompts multimodaux (MaPLe) appliquée simultanément aux branches vision et langage, afin d’améliorer l’alignement entre les représentations visuelles et linguistiques. Notre architecture favorise un couplage fort entre les prompts vision et langage, garantissant une synergie mutuelle, tout en décourageant l’apprentissage de solutions unimodales indépendantes. En outre, nous apprenons des prompts distincts à différentes étapes précoces du processus, afin de modéliser progressivement les relations entre les caractéristiques à chaque étape, permettant ainsi une apprentissage riche du contexte. Nous évaluons l’efficacité de notre approche sur trois tâches représentatives : la généralisation à de nouvelles classes, l’adaptation à de nouveaux jeux de données cibles, et la robustesse face à des décalages de domaine inédits. Par rapport à l’état de l’art Co-CoOp, MaPLe montre des performances supérieures, avec une amélioration absolue de 3,45 % sur les nouvelles classes et de 2,72 % sur la moyenne harmonique globale, moyennée sur 11 jeux de données diversifiés pour la reconnaissance d’images. Notre code et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/muzairkhattak/multimodal-prompt-learning.