HyperAIHyperAI
il y a 11 jours

Apprentissage de prompt par méta-régularisation

Jinyoung Park, Juyeon Ko, Hyunwoo J. Kim
Apprentissage de prompt par méta-régularisation
Résumé

Les modèles vision-langage pré-entraînés ont démontré un succès remarquable sur diverses tâches de vision par ordinateur grâce à leur capacité de généralisation zéro-shot. Récemment, des approches d'apprentissage de prompt ont été explorées afin d'adapter efficacement et efficacement ces modèles vision-langage à une large gamme de tâches en amont. Toutefois, la plupart des méthodes existantes d'apprentissage de prompt souffrent d'un surapprentissage spécifique à la tâche, car les connaissances générales des modèles vision-langage pré-entraînés sont oubliées lors de l'ajustement fin (fine-tuning) des prompts sur un petit jeu de données issu d'une tâche cible spécifique. Pour remédier à ce problème, nous proposons une régularisation méta pour les prompts (Prompt Meta-Regularization, ProMetaR), visant à améliorer la généralisation de l'apprentissage de prompt pour les modèles vision-langage. Plus précisément, ProMetaR apprend méta-les régularisateurs ainsi que les prompts doux, afin d'exploiter à la fois les connaissances spécifiques à la tâche issues des tâches en amont et les connaissances générales indépendantes de la tâche issues des modèles vision-langage. En outre, ProMetaR enrichit la tâche cible pour générer plusieurs tâches virtuelles, ce qui atténue le surapprentissage méta. Par ailleurs, nous fournissons une analyse permettant de comprendre, du point de vue de l’alignement des gradients, comment ProMetaR améliore la généralisation de l’ajustement par prompt. Nos expériences étendues démontrent que ProMetaR améliore significativement la généralisation des méthodes classiques d’apprentissage de prompt dans des scénarios de base à base, de base à nouveau (base-to-new) et de généralisation de domaine. Le code de ProMetaR est disponible à l’adresse suivante : https://github.com/mlvlab/ProMetaR.

Apprentissage de prompt par méta-régularisation | Articles de recherche récents | HyperAI