Anpassungsfähige Eingabedarstellungen für neuronale Sprachmodelle

Wir stellen adaptive Eingabedarstellungen für neuronale Sprachmodelle vor, die die adaptive Softmax-Methode von Grave et al. (2017) auf Eingabedarstellungen variabler Kapazität erweitern. Es gibt mehrere Möglichkeiten, wie man die Eingabe- und Ausgabeschichten faktorisieren kann, und ob man Wörter, Buchstaben oder Sub-Wort-Einheiten modelliert. Wir führen eine systematische Vergleichsanalyse der gängigen Optionen für eine selbst-achtende Architektur durch. Unsere Experimente zeigen, dass Modelle mit adaptiven Einbettungen mehr als doppelt so schnell trainiert werden können wie das beliebte CNN für Zeichenbasierte Eingaben und dabei weniger Parameter haben. Bei der WikiText-103-Benchmark erreichen wir eine Perplexität von 18,7, was eine Verbesserung um 10,5 Perplexität gegenüber dem bisher besten veröffentlichten Ergebnis darstellt. Bei der Billion Word-Benchmark erreichen wir eine Perplexität von 23,02.