Amélioration du réglage des prompts visuels pour les transformateurs vision auto-entraînés

Visual Prompt Tuning (VPT) est une méthode efficace d’adaptation des Vision Transformers (ViTs) préentraînés aux tâches spécifiques. Elle exploite des tokens apprenables supplémentaires, appelés « prompts », qui orientent les ViTs préentraînés, maintenant leurs paramètres gelés. Bien que le VPT ait démontré son efficacité avec les ViTs supervisés, il se comporte souvent de manière inférieure lorsqu’il est appliqué à des ViTs auto-supervisés. À partir d’observations empiriques, nous constatons que l’efficacité du VPT dépend largement des blocs ViT avec lesquels les tokens de prompt interagissent. Plus précisément, le VPT améliore les performances sur les tâches de classification d’images pour MAE et MoCo v3 lorsque les tokens de prompt sont insérés dans des blocs ultérieurs plutôt que dans le premier bloc. Ces observations suggèrent l’existence d’un emplacement optimal pour l’insertion des tokens de prompt au sein des ViTs auto-supervisés. Malheureusement, identifier ces blocs optimaux pour chaque ViT auto-supervisé dans des scénarios futurs divers est un processus coûteux. Pour atténuer ce problème, nous proposons une méthode simple mais efficace qui apprend une porte (gate) pour chaque bloc ViT afin d’ajuster son intervention sur les tokens de prompt. Grâce à cette approche, les tokens de prompt sont influencés sélectivement par les blocs nécessitant une orientation pour l’adaptation à la tâche. Notre méthode surpasser les variantes du VPT sur les tâches de classification d’images FGVC et VTAB, ainsi que sur la segmentation sémantique ADE20K. Le code est disponible à l’adresse suivante : https://github.com/ryongithub/GatedPromptTuning.