HyperAIHyperAI
il y a 11 jours

Apprentissage de prompt guidé par la cohérence pour les modèles vision-langage

Shuvendu Roy, Ali Etemad
Apprentissage de prompt guidé par la cohérence pour les modèles vision-langage
Résumé

Nous proposons CoPrompt, une nouvelle méthode d’ajustement fin (fine-tuning) pour les modèles vision-langage. Notre approche améliore la généralisation des grands modèles fondamentaux lors de l’ajustement sur des tâches spécifiques dans un cadre à faibles exemplaires (few-shot). L'idée fondamentale de CoPrompt consiste à imposer une contrainte de cohérence sur les prédictions des modèles entraînables et pré-entraînés, afin de prévenir le surajustement à la tâche spécifique. En outre, nous intégrons deux composants supplémentaires dans cette contrainte de cohérence afin d’optimiser davantage les performances : l’imposition de cohérence sur deux entrées perturbées, ainsi que la combinaison des deux paradigmes dominants d’ajustement, à savoir la technique de prompting et l’usage d’adapteurs (adapters). L’imposition de cohérence sur des entrées perturbées renforce davantage la régularisation de la contrainte de cohérence, améliorant ainsi la généralisation. Par ailleurs, l’intégration des adapteurs et des prompts non seulement améliore les performances sur les tâches spécifiques, mais offre également une flexibilité accrue dans l’ajustement, tant dans l’espace d’entrée que dans l’espace de sortie. Cela facilite une adaptation plus efficace aux tâches spécifiques dans un cadre d’apprentissage à faibles exemplaires. Les expérimentations montrent que CoPrompt surpasser les méthodes existantes sur diverses suites d’évaluation, incluant la généralisation de base vers de nouvelles catégories, la généralisation sur domaine et l’évaluation trans-dataset. En termes de généralisation, CoPrompt améliore l’état de l’art sur les tâches zéro-shot ainsi que la moyenne harmonique globale sur 11 jeux de données. Des études d’ablation détaillées confirment l’efficacité de chaque composant de CoPrompt. Nous mettons notre code à disposition à l’adresse suivante : https://github.com/ShuvenduRoy/CoPrompt.