il y a 17 jours

PRÉ : Apprentissage des prompts vision-langage avec un encodeur de réparamétrisation

Thi Minh Anh Pham, An Duc Nguyen, Cephas Svosve, Vasileios Argyriou, Georgios Tzimiropoulos

Résumé

Les grands modèles pré-entraînés vision-langage tels que CLIP ont démontré un potentiel considérable en termes de transfert zéro-shot vers des tâches spécifiques. Toutefois, pour atteindre des performances optimales, une sélection manuelle des prompts s'avère nécessaire afin d'améliorer l’alignement entre la distribution d’images de la tâche cible et les descriptions textuelles des classes. Ce processus d’ingénierie manuelle des prompts constitue le principal obstacle à l’adoption pratique de ces modèles, car il exige des compétences spécialisées et s’avère extrêmement chronophage. Afin d’éviter une telle ingénierie complexe, des travaux récents comme Context Optimization (CoOp) ont introduit la notion d’apprentissage de prompts dans le domaine vision en utilisant des tokens textuels apprenables. Bien que CoOp permette des améliorations significatives par rapport aux prompts manuels, les contextes appris présentent une capacité de généralisation limitée aux classes inconnues plus larges au sein du même jeu de données. Dans ce travail, nous proposons Prompt Learning with Reparameterization Encoder (PRE) – une méthode simple et efficace qui améliore la capacité de généralisation du prompt apprenable aux classes inconnues, tout en préservant sa capacité à apprendre les classes de base. Contrairement à une optimisation directe des prompts, PRE utilise un encodeur de prompts pour réparamétrer les embeddings d’entrée, ce qui renforce l’exploration des connaissances spécifiques à la tâche à partir d’échantillons en faible quantité. Des expériences et des études ablatives étendues sur 8 benchmarks démontrent que notre approche est une méthode efficace pour l’apprentissage de prompts. Plus précisément, PRE obtient une amélioration notable de 5,60 % en précision moyenne sur les nouvelles classes et une augmentation de 3 % en moyenne harmonique par rapport à CoOp dans le cadre de 16 exemples, toutes ces performances étant atteintes dans un temps d’entraînement raisonnable.