il y a 17 jours

R-Drop : Dropout régularisé pour les réseaux de neurones

Xiaobo Liang, Lijun Wu, Juntao Li, Yue Wang, Qi Meng, Tao Qin, Wei Chen, Min Zhang, Tie-Yan Liu

Résumé

Le dropout est une technique puissante et largement utilisée pour régulariser l'entraînement des réseaux de neurones profonds. Dans cet article, nous proposons une stratégie de régularisation simple basée sur le dropout, appelée R-Drop, qui impose une cohérence entre les distributions de sortie de différents sous-modèles générés par le dropout. Plus précisément, pour chaque échantillon d'entraînement, R-Drop minimise la divergence de Kullback-Leibler bidirectionnelle entre les distributions de sortie de deux sous-modèles échantillonnés par le dropout. Une analyse théorique révèle que R-Drop réduit la liberté des paramètres du modèle et complète le mécanisme du dropout. Des expériences menées sur $\bf{5}$ tâches largement utilisées en apprentissage profond ($\bf{18}$ jeux de données au total), incluant la traduction automatique de machine, la synthèse abstraite, la compréhension du langage, la modélisation du langage et la classification d’images, montrent que R-Drop est universellement efficace. En particulier, elle permet des améliorations significatives lors de la fine-tuning de modèles pré-entraînés à grande échelle, tels que ViT, RoBERTa-large et BART, et atteint des performances de pointe (SOTA) avec le modèle Transformer classique sur les tâches de traduction WMT14 Anglais$\to$Allemand ($\bf{30.91}$ BLEU) et WMT14 Anglais$\to$Français ($\bf{43.95}$ BLEU), surpassant même des modèles entraînés avec de grandes quantités de données supplémentaires et des variantes avancées du Transformer conçues par des experts. Notre code est disponible sur GitHub {\url{https://github.com/dropreg/R-Drop}}.