il y a 9 jours

Tuning de prompt visuel

Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, Ser-Nam Lim

Résumé

L’approche actuelle pour adapter les modèles pré-entraînés consiste à mettre à jour tous les paramètres du modèle principal, c’est-à-dire une fine-tuning complète. Ce papier présente Visual Prompt Tuning (VPT), une alternative efficace et performante à la fine-tuning complète pour les grands modèles Transformer en vision. Inspiré des récents progrès dans l’optimisation efficace des grands modèles linguistiques, VPT introduit uniquement une faible quantité de paramètres entraînables (moins de 1 % des paramètres du modèle) dans l’espace d’entrée, tout en maintenant le modèle principal gelé. À travers des expériences approfondies sur une large variété de tâches de reconnaissance en aval, nous démontrons que VPT atteint des gains de performance significatifs par rapport aux autres méthodes d’adaptation à faible coût en paramètres. Plus important encore, VPT surpasse même la fine-tuning complète dans de nombreux cas, quelle que soit la capacité du modèle ou l’échelle des données d’entraînement, tout en réduisant considérablement le coût de stockage par tâche.