Das Softmax-Problem überwinden: Ein hochrangiges RNN-Sprachmodell

Wir formulieren das Sprachmodellieren als ein Matrixfaktorisierungsproblem und zeigen, dass die Ausdrucksfähigkeit von Softmax-basierten Modellen (einschließlich der Mehrheit der neuronalen Sprachmodelle) durch eine Softmax-Flaschenhalsbegrenzung eingeschränkt ist. Angesichts der hohen Kontextabhängigkeit natürlicher Sprache impliziert dies, dass die Verwendung von Softmax mit verteilten Wortrepräsentationen in der Praxis nicht ausreichend Kapazität besitzt, um natürliche Sprache zu modellieren. Wir schlagen eine einfache und effektive Methode vor, um dieses Problem zu lösen, und verbessern den Stand der Technik auf dem Penn Treebank-Korpus und dem WikiText-2-Datensatz in Bezug auf die Perplexität auf 47,69 und 40,68 beziehungsweise. Die vorgeschlagene Methode erzielt auch bei dem großen 1B Word-Datensatz ausgezeichnete Ergebnisse und übertrifft das Baseline-Modell um mehr als 5,6 Punkte in Bezug auf die Perplexität.