HyperAIHyperAI
il y a 9 jours

LPT : Tuning de Prompt à queue longue pour la classification d'images

Bowen Dong, Pan Zhou, Shuicheng Yan, Wangmeng Zuo
LPT : Tuning de Prompt à queue longue pour la classification d'images
Résumé

Dans le cadre de la classification à queue longue, la plupart des méthodes existantes pré-entraînent d’abord un modèle volumineux sur un grand jeu de données, puis effectuent un finetuning complet du modèle pour l’adapter aux données à queue longue. Bien que prometteuse, cette approche de finetuning global présente des coûts élevés en calcul et en déploiement, notamment lorsqu’il s’agit de déployer différents modèles pour différentes tâches, tout en entraînant une dégradation de la capacité de généralisation due à un surapprentissage aux caractéristiques spécifiques des données à queue longue. Pour atténuer ces problèmes, nous proposons une méthode efficace de prompt tuning pour la classification à queue longue, appelée LPT (Long-tailed Prompt Tuning). LPT introduit plusieurs prompts ajustables dans un modèle pré-entraîné figé afin d’adapter ce dernier aux données à queue longue. Pour améliorer son efficacité, nous divisons les prompts en deux catégories : 1) un prompt partagé, appliqué à l’ensemble du jeu de données à queue longue, destiné à capturer des caractéristiques générales et à adapter le modèle pré-entraîné à la cible du domaine ; et 2) des prompts spécifiques à chaque groupe, qui permettent de regrouper les caractéristiques propres aux échantillons ayant des similarités, tout en renforçant la capacité discriminante du modèle pré-entraîné. Nous concevons ensuite un paradigme d’entraînement en deux phases pour apprendre ces prompts. Dans la phase 1, nous entraînons le prompt partagé via un prompt tuning supervisé afin d’adapter le modèle pré-entraîné au domaine cible à queue longue. Dans la phase 2, nous utilisons le prompt partagé appris comme requête pour sélectionner un petit ensemble optimal de prompts spécifiques à un groupe, parmi l’ensemble des prompts spécifiques, afin d’extraire les caractéristiques communes des échantillons similaires ; nous optimisons ensuite ces prompts à l’aide d’une stratégie d’échantillonnage double et d’une fonction de perte GCL asymétrique. En ne finetunant qu’un petit nombre de prompts tout en maintenant figé le modèle pré-entraîné, LPT réduit considérablement les coûts d’entraînement et de déploiement, en ne nécessitant que le stockage de quelques prompts, tout en bénéficiant de la forte capacité de généralisation du modèle pré-entraîné. Les expériences montrent que, sur diverses benchmarks à queue longue, LPT atteint des performances comparables à celles des méthodes classiques de finetuning complet, avec seulement ~1,1 % de paramètres supplémentaires, et se révèle plus robuste aux décalages de domaine.

LPT : Tuning de Prompt à queue longue pour la classification d'images | Articles de recherche récents | HyperAI