HyperAIHyperAI
il y a 17 jours

Co-Tuning pour l'apprentissage par transfert

{Jianmin Wang, Mingsheng Long, Zhi Kou, Kaichao You}
Co-Tuning pour l'apprentissage par transfert
Résumé

L’ajustement fin (fine-tuning) des réseaux de neurones profonds (DNN) pré-entraînés sur un jeu de données cible, également connu sous le nom d’apprentissage par transfert, est largement utilisé en vision par ordinateur et en traitement du langage naturel (NLP). Étant donné que les couches spécifiques à la tâche contiennent principalement des informations catégorielles et que les catégories varient selon les jeux de données, les praticiens ne transfèrent que partiellement les modèles pré-entraînés en supprimant les couches spécifiques à la tâche et en ajustant uniquement les couches inférieures. Cependant, il s’agit d’une perte inconsidérée de simplement rejeter les paramètres spécifiques à la tâche, qui peuvent représenter jusqu’à 20 % du nombre total de paramètres dans les modèles pré-entraînés. Pour permettre un transfert complet des modèles pré-entraînés, nous proposons un cadre en deux étapes nommé Co-Tuning : (i) apprendre la relation entre les catégories source et les catégories cible à partir du modèle pré-entraîné et des prédictions calibrées ; (ii) superviser conjointement le processus d’ajustement fin grâce aux étiquettes cibles (étiquettes one-hot) ainsi qu’aux étiquettes sources (étiquettes probabilistes) traduites via la relation entre catégories. Une instanciation simple de ce cadre obtient des résultats expérimentaux remarquables sur quatre tâches de classification visuelle et une tâche de classification en NLP, offrant jusqu’à une amélioration relative de 20 %. Alors que les techniques d’ajustement fin les plus avancées se concentrent principalement sur la mise en œuvre de régularisations lorsque les données sont limitées, Co-Tuning s’avère efficace non seulement sur des jeux de données de taille moyenne (100 échantillons par classe), mais aussi sur des jeux de données de grande taille (1000 échantillons par classe), où les méthodes basées sur la régularisation ne confèrent aucun avantage par rapport à l’ajustement fin standard. Co-Tuning repose sur une hypothèse généralement valide selon laquelle le jeu de données utilisé pour l’entraînement préalable est suffisamment diversifié, ce qui implique une large portée d’applications.

Co-Tuning pour l'apprentissage par transfert | Articles de recherche récents | HyperAI