HyperAIHyperAI

Command Palette

Search for a command to run...

R-Drop : Dropout régularisé pour les réseaux de neurones

Xiaobo Liang Lijun Wu Juntao Li Yue Wang Qi Meng Tao Qin Wei Chen Min Zhang Tie-Yan Liu

Résumé

Le dropout est une technique puissante et largement utilisée pour régulariser l'entraînement des réseaux de neurones profonds. Dans cet article, nous proposons une stratégie de régularisation simple basée sur le dropout, appelée R-Drop, qui impose une cohérence entre les distributions de sortie de différents sous-modèles générés par le dropout. Plus précisément, pour chaque échantillon d'entraînement, R-Drop minimise la divergence de Kullback-Leibler bidirectionnelle entre les distributions de sortie de deux sous-modèles échantillonnés par le dropout. Une analyse théorique révèle que R-Drop réduit la liberté des paramètres du modèle et complète le mécanisme du dropout. Des expériences menées sur 5\bf{5}5 tâches largement utilisées en apprentissage profond (18\bf{18}18 jeux de données au total), incluant la traduction automatique de machine, la synthèse abstraite, la compréhension du langage, la modélisation du langage et la classification d’images, montrent que R-Drop est universellement efficace. En particulier, elle permet des améliorations significatives lors de la fine-tuning de modèles pré-entraînés à grande échelle, tels que ViT, RoBERTa-large et BART, et atteint des performances de pointe (SOTA) avec le modèle Transformer classique sur les tâches de traduction WMT14 Anglais\toAllemand (30.91\bf{30.91}30.91 BLEU) et WMT14 Anglais\toFrançais (43.95\bf{43.95}43.95 BLEU), surpassant même des modèles entraînés avec de grandes quantités de données supplémentaires et des variantes avancées du Transformer conçues par des experts. Notre code est disponible sur GitHub {\url{https://github.com/dropreg/R-Drop}}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp