HyperAI

Visual Prompt Tuning

Le Visual Prompt Tuning (VPT) est une méthode de fine-tuning efficace en termes de paramètres, qui introduit un petit nombre de paramètres apprenables spécifiques à la tâche dans l'espace d'entrée tout en gelant le backbone préentraîné du Transformer. Lors de l'entraînement pour les tâches en aval, ces paramètres sont optimisés conjointement avec la tête linéaire. Le VPT se distingue par ses performances dans des régimes à faibles données et conserve cet avantage à différentes échelles de données. De plus, le VPT est compétitif avec diverses tailles et designs de Transformers (comme ViTBase/Large/Huge, Swin), ce qui en fait une approche efficace pour s'adapter aux réseaux de backbone visuels en constante évolution.