Génération de prompt souple pour la généralisation de domaine

Les grands modèles vision-langage pré-entraînés (VLM) ont démontré une capacité impressionnante en mode zéro-shot sur des tâches en aval grâce à des prompts conçus manuellement. Afin d’adapter davantage les VLM aux tâches en aval, le concept de « prompt doux » (soft prompt) a été proposé pour remplacer les prompts manuellement conçus, ces derniers étant ensuite ajustés (fine-tuned) à l’aide de données spécifiques au domaine. Les méthodes antérieures d’apprentissage de prompts se concentrent principalement sur l’apprentissage d’un prompt fixe ou résiduel à partir d’échantillons d’entraînement. Toutefois, les prompts ainsi appris manquent de diversité et négligent les informations relatives aux domaines non vus. Dans ce papier, nous reformulons le cadre d’apprentissage de prompts sous une perspective générative et proposons une méthode simple mais efficace pour la tâche de généralisation de domaine (Domain Generalization, DG), appelée Génération de Prompt Doux (Soft Prompt Generation, SPG). Plus précisément, SPG repose sur une phase d’entraînement en deux étapes et une phase d’inférence. Pendant la phase d’entraînement, nous introduisons un « label de prompt doux » pour chaque domaine, afin d’intégrer les connaissances du domaine dans le modèle génératif. Pendant la phase d’inférence, le générateur du modèle génératif est utilisé pour produire des prompts doux spécifiques à chaque instance, adaptés au domaine cible inconnu. Des expériences étendues sur cinq benchmarks de généralisation de domaine, couvrant trois tâches de DG, montrent que SPG atteint des performances de pointe (state-of-the-art). Le code est disponible à l’adresse suivante : https://github.com/renytek13/Soft-Prompt-Generation-with-CGAN.