Command Palette
Search for a command to run...
Rekurrente Batch-Normalisierung
Rekurrente Batch-Normalisierung
Tim Cooijmans Nicolas Ballas César Laurent Çağlar Gülçehre Aaron Courville
Zusammenfassung
Wir schlagen eine Reparametrisierung des LSTMs vor, die die Vorteile der Batch-Normalisierung auf rekurrente Neuronale Netze überträgt. Während frühere Arbeiten die Batch-Normalisierung nur auf die Transformation von Eingang zu Verborgenem in RNNS anwendeten, zeigen wir, dass es sowohl möglich als auch vorteilhaft ist, den Übergang von Verborgenem zu Verborgenem zu batch-normalisieren, wodurch der interne Kovariatenversatz zwischen Zeitschritten reduziert wird. Wir evaluieren unseren Ansatz anhand verschiedener sequentieller Probleme wie Sequenzklassifizierung, Sprachmodellierung und Fragebeantwortung. Unsere empirischen Ergebnisse belegen, dass unser batch-normalisiertes LSTM konsistent zu schnellerer Konvergenz und verbessertem Generalisierungsvermögen führt.