HyperAIHyperAI

Command Palette

Search for a command to run...

R-Drop: Regularized Dropout für neuronale Netze

Xiaobo Liang Lijun Wu Juntao Li Yue Wang Qi Meng Tao Qin Wei Chen Min Zhang Tie-Yan Liu

Zusammenfassung

Dropout ist eine leistungsfähige und weit verbreitete Technik zur Regularisierung des Trainings tiefer neuronaler Netze. In diesem Paper stellen wir eine einfache Regularisierungsstrategie vor, die auf Dropout aufbaut und als R-Drop bezeichnet wird. Diese Strategie zwingt die Ausgabeverteilungen verschiedener Teilmodelle, die durch Dropout generiert werden, untereinander konsistent zu sein. Genauer gesagt minimiert R-Drop für jedes Trainingsbeispiel die bidirektionale Kullback-Leibler-Divergenz (KL-Divergenz) zwischen den Ausgabeverteilungen zweier Teilmodelle, die durch Dropout zufällig ausgewählt wurden. Theoretische Analysen zeigen, dass R-Drop die Freiheitsgrade der Modellparameter reduziert und damit Dropout ergänzt. Experimente an insgesamt 18\bf{18}18 Datensätzen aus 5\bf{5}5 weit verbreiteten Aufgabenbereichen des tiefen Lernens – einschließlich maschineller Übersetzung, abstraktiver Zusammenfassung, Sprachverständnis, Sprachmodellierung und Bildklassifikation – belegen die universelle Wirksamkeit von R-Drop. Insbesondere erzielt R-Drop erhebliche Verbesserungen bei der Feinabstimmung großer vortrainierter Modelle wie ViT, RoBERTa-large und BART und erreicht mit dem einfachen Transformer-Modell Stand der Technik (SOTA)-Leistungen bei der Übersetzung Englisch\toDeutsch (WMT14, 30.91\bf{30.91}30.91 BLEU) und Englisch\toFranzösisch (WMT14, 43.95\bf{43.95}43.95 BLEU), sogar übertroffen Modelle, die mit zusätzlichen großen Datensätzen und expertenentwickelten, fortgeschrittenen Varianten des Transformer-Modells trainiert wurden. Unser Quellcode ist auf GitHub{\url{https://github.com/dropreg/R-Drop}} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp