HyperAIHyperAI
vor einem Monat

Multiplikative LSTM für Sequenzmodellierung

Ben Krause; Liang Lu; Iain Murray; Steve Renals
Multiplikative LSTM für Sequenzmodellierung
Abstract

Wir stellen das multiplikative Long Short-Term Memory (mLSTM) vor, eine rekurrente Neuronale Netzwerkarchitektur für Sequenzmodellierung, die die Architekturen von Long Short-Term Memory (LSTM) und multiplikativen rekurrenten neuronalen Netzen kombiniert. Das mLSTM zeichnet sich durch seine Fähigkeit aus, für jede mögliche Eingabe unterschiedliche rekurrente Übergangsfunktionen zu haben, was wir als eine Erhöhung der Ausdrucksstärke für autoregressive Dichteabschätzungen betrachten. Wir zeigen empirisch, dass mLSTM bei einer Reihe von Aufgaben zur Zeichen-Level-Sprachmodellierung Standard-LSTM und deren tiefen Varianten überlegen ist. In dieser Version des Papers regularisieren wir das mLSTM, um auf dem Text8-Datensatz 1,27 Bit/Zeichen und auf dem Hutter Prize-Datensatz 1,24 Bit/Zeichen zu erreichen. Zudem wenden wir ein rein byte-basiertes mLSTM auf den WikiText-2-Datensatz an, um eine Zeichen-Level-Entropie von 1,26 Bit/Zeichen zu erzielen, was einem Wort-Level-Perplexitätswert von 88,8 entspricht. Dieser Wert ist vergleichbar mit den Ergebnissen von Wort-Level-LSTMs, die in ähnlicher Weise regularisiert wurden und dieselbe Aufgabe bearbeitet haben.