HyperAIHyperAI

Command Palette

Search for a command to run...

Mogrifier LSTM

Gábor Melis Tomáš Kočiský Phil Blunsom

Zusammenfassung

Viele Fortschritte im Bereich der Natural Language Processing (NLP) basieren auf expressiveren Modellen, die die Wechselwirkungen zwischen Eingaben und dem Kontext, in dem sie auftreten, besser erfassen. Obwohl rekurrente Netze einen gewissen Grad an Erfolg erzielt haben, fehlen ihnen noch die notwendige Generalisierung und Systematik für eine vollständige Modellierung von Sprache. In dieser Arbeit schlagen wir eine Erweiterung des etablierten Long Short-Term Memory (LSTM)-Modells vor, indem wir gegenseitiges Gating zwischen der aktuellen Eingabe und der vorherigen Ausgabe einführen. Dieser Mechanismus ermöglicht es, einen reicheren Interaktionsraum zwischen Eingaben und ihrem Kontext zu modellieren. Äquivalent dazu kann unser Modell als kontextabhängige Übergangsfunktion des LSTMs betrachtet werden. Experimente zeigen eine deutlich verbesserte Generalisierung bei der Sprachmodellierung, mit einer Reduktion von 3-4 Perplexity-Punkten auf dem Penn Treebank-Korpus und Wikitext-2 sowie 0,01-0,05 Bits pro Zeichen (bpc) auf vier zeichenbasierten Datensätzen. Wir legen einen neuen Stand der Technik für alle Datensätze fest, mit Ausnahme von Enwik8, wo wir den großen Abstand zwischen den LSTM- und Transformer-Modellen erheblich verringern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp