HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par transfert efficace en termes de paramètres pour le traitement du langage naturel

Neil Houlsby Andrei Giurgiu* Stanisław Jastrzębski* Bruna Morrone Quentin de Laroussilhe Andrea Gesmundo Mona Attariyan Sylvain Gelly

Résumé

L'ajustement fin (fine-tuning) des grands modèles pré-entraînés est un mécanisme de transfert efficace en traitement du langage naturel (NLP). Cependant, en présence de nombreuses tâches downstream, l'ajustement fin est inefficace en termes de paramètres : un nouveau modèle complet est nécessaire pour chaque tâche. En alternative, nous proposons le transfert avec des modules d'adaptation (adapter modules). Les modules d'adaptation permettent d'obtenir un modèle compact et extensible ; ils ajoutent seulement quelques paramètres entraînables par tâche, et de nouvelles tâches peuvent être ajoutées sans revoir les précédentes. Les paramètres du réseau original restent fixes, ce qui favorise un haut degré de partage de paramètres. Pour démontrer l'efficacité des modules d'adaptation, nous avons transféré le modèle BERT Transformer récemment proposé à 26 tâches variées de classification de texte, y compris le benchmark GLUE. Les adaptateurs atteignent des performances proches de l'état de l'art tout en ajoutant seulement quelques paramètres par tâche. Sur GLUE, nous obtenons une performance dans un intervalle de 0,4% par rapport à l'ajustement fin complet, en ajoutant seulement 3,6% des paramètres par tâche. Par contraste, l'ajustement fin entraîne 100% des paramètres par tâche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp