HyperAIHyperAI
vor einem Monat

Verbesserte Sprachmodellierung durch Decodierung der Vergangenheit

Siddhartha Brahma
Verbesserte Sprachmodellierung durch Decodierung der Vergangenheit
Abstract

Höchst regularisierte LSTMs erzielen beeindruckende Ergebnisse bei mehreren Benchmark-Datensätzen im Bereich der Sprachmodellierung. Wir schlagen eine neue Regularisierungsmethode vor, die darauf basiert, das letzte Token im Kontext mithilfe der vorhergesagten Verteilung des nächsten Tokens zu dekodieren. Dies veranlasst das Modell, mehr kontextuelle Informationen beizubehalten, was wiederum seine Fähigkeit zur Vorhersage des nächsten Tokens verbessert. Mit einem vernachlässigbaren Mehraufwand an Parametern und Trainingszeit erreicht unsere Methode der Vergangenheitsdekodierung-Regularisierung (Past Decode Regularization, PDR) eine Wortschwierigkeit von 55,6 auf dem Penn Treebank-Datensatz und 63,5 auf dem WikiText-2-Datensatz unter Verwendung eines einzelnen Softmax. Zudem zeigen wir Verbesserungen durch die Kombination von PDR mit einer Mischung von Softmax-Funktionen, wobei wir eine Wortschwierigkeit von 53,8 und 60,5 auf diesen Datensätzen erreichen. Darüber hinaus erreicht unsere Methode 1,169 Bits pro Zeichen auf dem Penn Treebank Character-Datensatz für die sprachliche Modellierung auf Zeichenebene. Diese Ergebnisse stellen einen neuen Stand der Technik in ihren jeweiligen Anwendungsbereichen dar.