HyperAIHyperAI
vor einem Monat

Regularisierung und Optimierung von LSTM-Sprachmodellen

Stephen Merity; Nitish Shirish Keskar; Richard Socher
Regularisierung und Optimierung von LSTM-Sprachmodellen
Abstract

Rekurrente Neuronale Netze (RNNs), wie z.B. Long Short-Term Memory Netze (LSTMs), bilden die grundlegende Baueinheit für viele sequenzielle Lernaufgaben, darunter maschinelle Übersetzung, Sprachmodellierung und Frage-Antwort-Systeme. In dieser Arbeit betrachten wir das spezifische Problem der Wortebene-Sprachmodellierung und untersuchen Strategien zur Regularisierung und Optimierung von LSTM-basierten Modellen. Wir schlagen den „weight-dropped“ LSTM vor, der DropConnect auf den verborgenen-zu-verborgenen Gewichten verwendet, um eine Form der rekurrenten Regularisierung zu erreichen. Darüber hinaus führen wir NT-ASGD ein, eine Variante der durchschnittlichen stochastischen Gradientenmethode (Averaged Stochastic Gradient Descent), bei der der Auslöser für das Durchschnittsbildung durch eine nicht-monotone Bedingung bestimmt wird, anstatt vom Benutzer eingestellt zu werden. Mit diesen und anderen Regularisierungsstrategien erreichen wir Stand-of-the-Art-Werte für die Wortebene-Verwirrtheit (perplexity) auf zwei Datensätzen: 57,3 auf dem Penn Treebank und 65,8 auf WikiText-2. Bei der Untersuchung der Effektivität eines neuronalen Caches in Verbindung mit unserem vorgeschlagenen Modell gelangen wir zu noch niedrigeren Stand-of-the-Art-Werten für die Verwirrtheit: 52,8 auf dem Penn Treebank und 52,0 auf WikiText-2.