vor 4 Monaten

Fraternal Dropout

Konrad Zolna; Devansh Arpit; Dendi Suhubdy; Yoshua Bengio

Details der Forschungsarbeit anzeigen View Code

Abstract

Rekurrente Neuronale Netze (RNNs) stellen eine wichtige Klasse von Architekturen unter neuronalen Netzen dar, die für Sprachmodelle und sequenzielle Vorhersagen nützlich sind. Die Optimierung von RNNs ist jedoch bekanntermaßen schwieriger als bei Feed-Forward-Neuronalen Netzen. In der Literatur wurden verschiedene Techniken vorgeschlagen, um dieses Problem zu lösen. In dieser Arbeit schlagen wir eine einfache Technik namens fraternales Dropout vor, die das Dropout nutzt, um dieses Ziel zu erreichen. Genauer gesagt schlagen wir vor, zwei identische Kopien eines RNNs (die Parameter teilen) mit unterschiedlichen Dropout-Masken zu trainieren, während gleichzeitig der Unterschied zwischen ihren (vor-Softmax-)Vorhersagen minimiert wird. Auf diese Weise ermutigt unsere Regularisierung die Repräsentationen des RNNs, invariant gegenüber den Dropout-Masken zu sein, wodurch sie robuster werden. Wir zeigen, dass unser Regularisierungsterm durch das Erwartungswert-lineare Dropout-Ziel obere Schranken hat, das bereits als Mittel zur Überbrückung der Lücke zwischen den Trainings- und Inferenzphasen des Dropouts bewiesen wurde. Wir evaluieren unser Modell und erzielen Stand-of-the-Art-Ergebnisse in sequenziellen Modellierungsaufgaben auf zwei Benchmark-Datensätzen – dem Penn Treebank und dem Wikitext-2. Darüber hinaus zeigen wir, dass unser Ansatz in Bildunterschriftgenerierung (Microsoft COCO) und semi-überwachten (CIFAR-10) Aufgaben eine signifikante Leistungsverbesserung führt.