Direkte Ausgabeverbindung für ein hochrangiges Sprachmodell

Dieses Papier präsentiert ein neuestands Recurrent Neural Network (RNN)-Sprachmodell, das Wahrscheinlichkeitsverteilungen nicht nur aus einer finalen RNN-Schicht, sondern auch aus mittleren Schichten berechnet. Die vorgeschlagene Methode erhöht die Ausdrucksstärke des Sprachmodells auf Basis der durch Yang et al. (2018) eingeführten Matrixfaktorisierungssichtweise der Sprachmodellierung. Das vorgeschlagene Modell verbessert das aktuelle neuestands Sprachmodell und erreicht die besten Ergebnisse auf den Standard-Benchmark-Datensätzen Penn Treebank und WikiText-2. Darüber hinaus zeigen wir, dass unsere Methode für zwei Anwendungsaufgaben beiträgt: maschinelle Übersetzung und Headline-Generierung. Unser Code ist öffentlich verfügbar unter: https://github.com/nttcslab-nlp/doc_lm.