HyperAIHyperAI

Command Palette

Search for a command to run...

Regularisierung und Optimierung von LSTM-Sprachmodellen

Stephen Merity Nitish Shirish Keskar Richard Socher

Zusammenfassung

Rekurrente Neuronale Netze (RNNs), wie z.B. Long Short-Term Memory Netze (LSTMs), bilden die grundlegende Baueinheit für viele sequenzielle Lernaufgaben, darunter maschinelle Übersetzung, Sprachmodellierung und Frage-Antwort-Systeme. In dieser Arbeit betrachten wir das spezifische Problem der Wortebene-Sprachmodellierung und untersuchen Strategien zur Regularisierung und Optimierung von LSTM-basierten Modellen. Wir schlagen den „weight-dropped“ LSTM vor, der DropConnect auf den verborgenen-zu-verborgenen Gewichten verwendet, um eine Form der rekurrenten Regularisierung zu erreichen. Darüber hinaus führen wir NT-ASGD ein, eine Variante der durchschnittlichen stochastischen Gradientenmethode (Averaged Stochastic Gradient Descent), bei der der Auslöser für das Durchschnittsbildung durch eine nicht-monotone Bedingung bestimmt wird, anstatt vom Benutzer eingestellt zu werden. Mit diesen und anderen Regularisierungsstrategien erreichen wir Stand-of-the-Art-Werte für die Wortebene-Verwirrtheit (perplexity) auf zwei Datensätzen: 57,3 auf dem Penn Treebank und 65,8 auf WikiText-2. Bei der Untersuchung der Effektivität eines neuronalen Caches in Verbindung mit unserem vorgeschlagenen Modell gelangen wir zu noch niedrigeren Stand-of-the-Art-Werten für die Verwirrtheit: 52,8 auf dem Penn Treebank und 52,0 auf WikiText-2.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp