Rekurrente Batch-Normalisierung

Wir schlagen eine Reparametrisierung des LSTMs vor, die die Vorteile der Batch-Normalisierung auf rekurrente Neuronale Netze überträgt. Während frühere Arbeiten die Batch-Normalisierung nur auf die Transformation von Eingang zu Verborgenem in RNNS anwendeten, zeigen wir, dass es sowohl möglich als auch vorteilhaft ist, den Übergang von Verborgenem zu Verborgenem zu batch-normalisieren, wodurch der interne Kovariatenversatz zwischen Zeitschritten reduziert wird. Wir evaluieren unseren Ansatz anhand verschiedener sequentieller Probleme wie Sequenzklassifizierung, Sprachmodellierung und Fragebeantwortung. Unsere empirischen Ergebnisse belegen, dass unser batch-normalisiertes LSTM konsistent zu schnellerer Konvergenz und verbessertem Generalisierungsvermögen führt.