HyperAIHyperAI

Command Palette

Search for a command to run...

Fraternal Dropout

Konrad Żolna Devansh Arpit Dendi Suhubdy Yoshua Bengio

Zusammenfassung

Rekurrente Neuronale Netze (RNNs) stellen eine wichtige Klasse von Architekturen unter neuronalen Netzen dar, die für Sprachmodelle und sequenzielle Vorhersagen nützlich sind. Die Optimierung von RNNs ist jedoch bekanntermaßen schwieriger als bei Feed-Forward-Neuronalen Netzen. In der Literatur wurden verschiedene Techniken vorgeschlagen, um dieses Problem zu lösen. In dieser Arbeit schlagen wir eine einfache Technik namens fraternales Dropout vor, die das Dropout nutzt, um dieses Ziel zu erreichen. Genauer gesagt schlagen wir vor, zwei identische Kopien eines RNNs (die Parameter teilen) mit unterschiedlichen Dropout-Masken zu trainieren, während gleichzeitig der Unterschied zwischen ihren (vor-Softmax-)Vorhersagen minimiert wird. Auf diese Weise ermutigt unsere Regularisierung die Repräsentationen des RNNs, invariant gegenüber den Dropout-Masken zu sein, wodurch sie robuster werden. Wir zeigen, dass unser Regularisierungsterm durch das Erwartungswert-lineare Dropout-Ziel obere Schranken hat, das bereits als Mittel zur Überbrückung der Lücke zwischen den Trainings- und Inferenzphasen des Dropouts bewiesen wurde. Wir evaluieren unser Modell und erzielen Stand-of-the-Art-Ergebnisse in sequenziellen Modellierungsaufgaben auf zwei Benchmark-Datensätzen – dem Penn Treebank und dem Wikitext-2. Darüber hinaus zeigen wir, dass unser Ansatz in Bildunterschriftgenerierung (Microsoft COCO) und semi-überwachten (CIFAR-10) Aufgaben eine signifikante Leistungsverbesserung führt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp