il y a 2 mois

Apprentissage par transfert efficace en termes de paramètres pour le traitement du langage naturel

Neil Houlsby; Andrei Giurgiu; Stanislaw Jastrzebski; Bruna Morrone; Quentin de Laroussilhe; Andrea Gesmundo; Mona Attariyan; Sylvain Gelly

Voir les détails de l'article

Apprentissage par transfert efficace en termes de paramètres pour le traitement du langage naturel

Résumé

L'ajustement fin (fine-tuning) des grands modèles pré-entraînés est un mécanisme de transfert efficace en traitement du langage naturel (NLP). Cependant, en présence de nombreuses tâches downstream, l'ajustement fin est inefficace en termes de paramètres : un nouveau modèle complet est nécessaire pour chaque tâche. En alternative, nous proposons le transfert avec des modules d'adaptation (adapter modules). Les modules d'adaptation permettent d'obtenir un modèle compact et extensible ; ils ajoutent seulement quelques paramètres entraînables par tâche, et de nouvelles tâches peuvent être ajoutées sans revoir les précédentes. Les paramètres du réseau original restent fixes, ce qui favorise un haut degré de partage de paramètres. Pour démontrer l'efficacité des modules d'adaptation, nous avons transféré le modèle BERT Transformer récemment proposé à 26 tâches variées de classification de texte, y compris le benchmark GLUE. Les adaptateurs atteignent des performances proches de l'état de l'art tout en ajoutant seulement quelques paramètres par tâche. Sur GLUE, nous obtenons une performance dans un intervalle de 0,4% par rapport à l'ajustement fin complet, en ajoutant seulement 3,6% des paramètres par tâche. Par contraste, l'ajustement fin entraîne 100% des paramètres par tâche.