vor einem Monat

Mogrifier LSTM

Gábor Melis; Tomáš Kočiský; Phil Blunsom

Abstract

Viele Fortschritte im Bereich der Natural Language Processing (NLP) basieren auf expressiveren Modellen, die die Wechselwirkungen zwischen Eingaben und dem Kontext, in dem sie auftreten, besser erfassen. Obwohl rekurrente Netze einen gewissen Grad an Erfolg erzielt haben, fehlen ihnen noch die notwendige Generalisierung und Systematik für eine vollständige Modellierung von Sprache. In dieser Arbeit schlagen wir eine Erweiterung des etablierten Long Short-Term Memory (LSTM)-Modells vor, indem wir gegenseitiges Gating zwischen der aktuellen Eingabe und der vorherigen Ausgabe einführen. Dieser Mechanismus ermöglicht es, einen reicheren Interaktionsraum zwischen Eingaben und ihrem Kontext zu modellieren. Äquivalent dazu kann unser Modell als kontextabhängige Übergangsfunktion des LSTMs betrachtet werden. Experimente zeigen eine deutlich verbesserte Generalisierung bei der Sprachmodellierung, mit einer Reduktion von 3-4 Perplexity-Punkten auf dem Penn Treebank-Korpus und Wikitext-2 sowie 0,01-0,05 Bits pro Zeichen (bpc) auf vier zeichenbasierten Datensätzen. Wir legen einen neuen Stand der Technik für alle Datensätze fest, mit Ausnahme von Enwik8, wo wir den großen Abstand zwischen den LSTM- und Transformer-Modellen erheblich verringern.