HyperAIHyperAI
il y a 17 jours

Réduction de la profondeur des Transformers à la demande grâce au Dropout structuré

Angela Fan, Edouard Grave, Armand Joulin
Réduction de la profondeur des Transformers à la demande grâce au Dropout structuré
Résumé

Les réseaux transformer sur-paramétrés ont atteint des résultats de pointe dans diverses tâches de traitement du langage naturel, telles que la traduction automatique, le modèle de langage et la réponse aux questions. Ces modèles comptent des centaines de millions de paramètres, ce qui exige une importante puissance de calcul et les rend sensibles au surajustement. Dans ce travail, nous explorons LayerDrop, une forme de dropout structuré, qui exerce un effet de régularisation pendant l'entraînement et permet une élagage efficace au moment de l'inférence. Plus précisément, nous démontrons qu'il est possible de sélectionner des sous-réseaux de profondeur quelconque à partir d'un seul grand réseau, sans avoir à les ajuster finement, avec un impact limité sur les performances. Nous illustrons l'efficacité de notre approche en améliorant l'état de l'art sur des benchmarks de traduction automatique, de modèle de langage, de résumé, de réponse aux questions et d'understanding du langage. En outre, nous montrons que notre méthode permet d'obtenir des modèles BERT de petite taille de meilleure qualité que l'entraînement à partir de zéro ou l'utilisation de la distillation.

Réduction de la profondeur des Transformers à la demande grâce au Dropout structuré | Articles de recherche récents | HyperAI