Optimisation de Prompt en Lecture Seule pour l'Apprentissage Par Few-shot Vision-Language

Ces dernières années, le tuning de prompt s’est avéré efficace pour adapter les modèles pré-entraînés vision-langage aux tâches spécifiques. Ces méthodes visent à adapter les modèles pré-entraînés en introduisant des prompts apprenables tout en maintenant les poids pré-entraînés gelés. Toutefois, les prompts apprenables peuvent perturber les représentations internes au sein du module d’attention auto-associative, ce qui peut avoir un impact négatif sur la variance des performances et la généralisation, notamment dans des contextes à faible disponibilité de données. Pour remédier à ces problèmes, nous proposons une nouvelle approche, appelée Optimisation de Prompt en Lecture Seule (RPO, Read-only Prompt Optimization). RPO exploite une attention masquée afin de prévenir le décalage des représentations internes dans le modèle pré-entraîné. En outre, pour faciliter l’optimisation de RPO, les prompts en lecture seule sont initialisés à partir de tokens spéciaux du modèle pré-entraîné. Nos expériences étendues démontrent que RPO surpasse CLIP et CoCoOp en généralisation base-to-new et en généralisation de domaine, tout en offrant une meilleure robustesse. De plus, la méthode proposée atteint une meilleure généralisation dans des conditions extrêmement déficientes en données, tout en améliorant l’efficacité des paramètres et la charge computationnelle. Le code est disponible à l’adresse suivante : https://github.com/mlvlab/RPO.