HyperAIHyperAI

Command Palette

Search for a command to run...

Réduction de la profondeur des Transformers à la demande grâce au Dropout structuré

Angela Fan Edouard Grave Armand Joulin

Résumé

Les réseaux transformer sur-paramétrés ont atteint des résultats de pointe dans diverses tâches de traitement du langage naturel, telles que la traduction automatique, le modèle de langage et la réponse aux questions. Ces modèles comptent des centaines de millions de paramètres, ce qui exige une importante puissance de calcul et les rend sensibles au surajustement. Dans ce travail, nous explorons LayerDrop, une forme de dropout structuré, qui exerce un effet de régularisation pendant l'entraînement et permet une élagage efficace au moment de l'inférence. Plus précisément, nous démontrons qu'il est possible de sélectionner des sous-réseaux de profondeur quelconque à partir d'un seul grand réseau, sans avoir à les ajuster finement, avec un impact limité sur les performances. Nous illustrons l'efficacité de notre approche en améliorant l'état de l'art sur des benchmarks de traduction automatique, de modèle de langage, de résumé, de réponse aux questions et d'understanding du langage. En outre, nous montrons que notre méthode permet d'obtenir des modèles BERT de petite taille de meilleure qualité que l'entraînement à partir de zéro ou l'utilisation de la distillation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp