vor 17 Tagen

R-Drop: Regularized Dropout für neuronale Netze

Xiaobo Liang, Lijun Wu, Juntao Li, Yue Wang, Qi Meng, Tao Qin, Wei Chen, Min Zhang, Tie-Yan Liu

Abstract

Dropout ist eine leistungsfähige und weit verbreitete Technik zur Regularisierung des Trainings tiefer neuronaler Netze. In diesem Paper stellen wir eine einfache Regularisierungsstrategie vor, die auf Dropout aufbaut und als R-Drop bezeichnet wird. Diese Strategie zwingt die Ausgabeverteilungen verschiedener Teilmodelle, die durch Dropout generiert werden, untereinander konsistent zu sein. Genauer gesagt minimiert R-Drop für jedes Trainingsbeispiel die bidirektionale Kullback-Leibler-Divergenz (KL-Divergenz) zwischen den Ausgabeverteilungen zweier Teilmodelle, die durch Dropout zufällig ausgewählt wurden. Theoretische Analysen zeigen, dass R-Drop die Freiheitsgrade der Modellparameter reduziert und damit Dropout ergänzt. Experimente an insgesamt $\bf{18}$ Datensätzen aus $\bf{5}$ weit verbreiteten Aufgabenbereichen des tiefen Lernens – einschließlich maschineller Übersetzung, abstraktiver Zusammenfassung, Sprachverständnis, Sprachmodellierung und Bildklassifikation – belegen die universelle Wirksamkeit von R-Drop. Insbesondere erzielt R-Drop erhebliche Verbesserungen bei der Feinabstimmung großer vortrainierter Modelle wie ViT, RoBERTa-large und BART und erreicht mit dem einfachen Transformer-Modell Stand der Technik (SOTA)-Leistungen bei der Übersetzung Englisch$\to$Deutsch (WMT14, $\bf{30.91}$ BLEU) und Englisch$\to$Französisch (WMT14, $\bf{43.95}$ BLEU), sogar übertroffen Modelle, die mit zusätzlichen großen Datensätzen und expertenentwickelten, fortgeschrittenen Varianten des Transformer-Modells trainiert wurden. Unser Quellcode ist auf GitHub{\url{https://github.com/dropreg/R-Drop}} verfügbar.