il y a 17 jours

Apprentissage de prompt bayésien pour la généralisation des modèles image-langage

Mohammad Mahdi Derakhshani, Enrique Sanchez, Adrian Bulat, Victor Guilherme Turrisi da Costa, Cees G. M. Snoek, Georgios Tzimiropoulos, Brais Martinez

Voir les détails de l'article

Apprentissage de prompt bayésien pour la généralisation des modèles image-langage

Résumé

Les modèles fondamentaux image-langage ont suscité un intérêt considérable en raison de leur capacité à s’adapter efficacement aux tâches en amont grâce à l’apprentissage par prompt. L’apprentissage par prompt consiste à traiter une partie de l’entrée du modèle linguistique comme entraînable tout en gelant le reste, tout en optimisant un objectif de minimisation du risque empirique. Toutefois, la minimisation du risque empirique est connue pour être sensible aux décalages de distribution, ce qui nuit à la généralisation aux prompts non vus durant l’entraînement. En exploitant la capacité de régularisation des méthodes bayésiennes, nous reformulons l’apprentissage par prompt du point de vue bayésien et le posons comme un problème d’inférence variationnelle. Notre approche régularise l’espace des prompts, réduit le surapprentissage aux prompts observés et améliore la généralisation aux prompts inédits. Notre cadre est mis en œuvre en modélisant l’espace des prompts d’entrée de manière probabiliste, sous la forme d’une distribution a priori, ce qui rend notre proposition compatible avec les approches d’apprentissage par prompt conditionnelles ou non conditionnelles à l’image. Nous démontrons empiriquement, sur 15 benchmarks, que l’apprentissage bayésien par prompt offre une couverture adéquate de l’espace des prompts, empêche l’apprentissage de caractéristiques spuriennes et exploite efficacement les caractéristiques invariantes transférables. Cela se traduit par une meilleure généralisation aux prompts inédits, même à travers différents jeux de données et domaines. Code disponible à l’adresse : https://github.com/saic-fi/Bayesian-Prompt-Learning