Réexamen du pouvoir du prompt pour l'ajustement visuel

La tuning de prompt visuel (VPT) constitue une solution prometteuse qui intègre des tokens de prompt apprenables afin de personnaliser les modèles pré-entraînés pour des tâches spécifiques. Toutefois, la VPT et ses variantes rencontrent fréquemment des défis tels que l’initialisation des prompts, la longueur des prompts, ainsi qu’une performance insuffisante lors de l’entraînement auto-supervisé, ce qui entrave une adaptation contextuelle réussie. Cette étude commence par explorer l’évolution des corrélations entre les prompts et les tokens de patch durant l’entraînement efficace. Inspirés de l’observation selon laquelle les tokens de prompt présentent une forte information mutuelle avec les tokens de patch, nous proposons d’initialiser les prompts à partir de prototypes de tokens spécifiques aux tâches cibles. Cette initialisation stratégique, qui remplace l’initialisation classique, améliore considérablement les performances en fine-tuning. Pour affiner davantage, nous optimisons la construction des tokens via une pipeline simplifiée, qui maintient des performances excellentes avec pratiquement aucune augmentation des coûts computationnels par rapport à la VPT. Des expériences exhaustives montrent que notre approche surpasse de manière significative les méthodes existantes. Par exemple, elle dépasse le fine-tuning complet dans 19 des 24 tâches, en utilisant moins de 0,4 % des paramètres apprenables sur les benchmarks FGVC et VTAB-1K. Notamment, notre méthode réalise des progrès importants dans l’adaptation à l’entraînement auto-supervisé, obtenant des gains de performance de tâche impressionnants, allant de 10 à 30 %. En outre, les résultats expérimentaux démontrent que notre méthode SPT est robuste à la longueur des prompts et s’échelonne efficacement avec la capacité du modèle et la taille des données d’entraînement. Enfin, nous fournissons une analyse approfondie sur la quantité de données cibles nécessaire pour faciliter l’adaptation des modèles pré-entraînés aux tâches spécifiques. Le code est disponible à l’adresse suivante : https://github.com/WangYZ1608/Self-Prompt-Tuning.