HyperAIHyperAI
vor einem Monat

Stufenweises Lernen von Rekurrenten Neuronalen Netzen

Ziv Aharoni; Gal Rattner; Haim Permuter
Stufenweises Lernen von Rekurrenten Neuronalen Netzen
Abstract

Recurrent Neural Networks (RNNs) erzielen in vielen sequenzbasierten Modellierungsaufgaben standesübliche Ergebnisse. Allerdings sind RNNs schwierig zu trainieren und neigen dazu, an Überanpassung (Overfitting) zu leiden. Inspiriert durch die Datenverarbeitungsungleichung (Data Processing Inequality, DPI), formulieren wir das mehrschichtige Netzwerk als Markov-Kette und führen eine Trainingsmethode ein, die das schrittweise Trainieren des Netzwerks und das schichtweise Gradientenclipping umfasst. Wir stellten fest, dass die Anwendung unserer Methoden in Kombination mit bereits eingeführten Regularisierungs- und Optimierungsmethoden zu Verbesserungen in standesüblichen Architekturen führte, die in der Sprachmodellierung eingesetzt werden.