HyperAIHyperAI
il y a 17 jours

PVP : Pré-entraînement par ajustement efficace en paramètres visuels

Zhao Song, Ke Yang, Naiyang Guan, Junjie Zhu, Peng Qiao, Qingyong Hu
PVP : Pré-entraînement par ajustement efficace en paramètres visuels
Résumé

Les transformateurs pré-entraînés à grande échelle ont fait preuve d’un succès remarquable dans diverses tâches de vision par ordinateur. Toutefois, il reste extrêmement difficile de les fine-tuner pleinement pour des tâches spécifiques en raison de leurs coûts computationnels et de stockage élevés. Récemment, des techniques de réglage à faible coût en paramètres (Parameter-Efficient Tuning, PETuning), telles que le Visual Prompt Tuning (VPT) et l’adaptation par rang faible (LoRA), ont considérablement réduit ces coûts en insérant des modules de prompt légers dans les modèles pré-entraînés et en ajustant uniquement ces modules à l’aide d’un petit nombre de paramètres entraînables, tout en maintenant le noyau du transformateur gelé. Bien que très peu de paramètres soient à ajuster, la plupart des méthodes PETuning nécessitent encore une quantité importante de données d’apprentissage pour les tâches spécifiques afin d’obtenir de bons résultats. Leur performance est insuffisante dans les régimes à faible données, en particulier lorsque l’on dispose de seulement un ou deux exemples par classe. À cet effet, nous identifions d’abord empiriquement que la faible performance provient principalement d’une initialisation inappropriée des modules de prompt, un phénomène également confirmé dans les modèles pré-entraînés pour le langage. Ensuite, nous proposons un cadre de réglage efficace en paramètres basé sur la pré-entraînement visuel (Pre-trained Visual Parameter-efficient, PVP Tuning), qui pré-entraîne d’abord les modules de réglage efficace en paramètres, puis exploite ces modules pré-entraînés conjointement avec le noyau du transformateur pré-entraîné pour effectuer un réglage efficace en paramètres sur les tâches spécifiques. Les résultats expérimentaux sur cinq jeux de données de classification visuelle fine-grained (FGVC) et sur le jeu de données VTAB-1k démontrent que la méthode proposée surpasse significativement les états de l’art en matière de PETuning.