Bindung von Wortvektoren und Wortklassifizierern: Ein Verlustrahmen für die Sprachmodellierung

Recurrent Neural Networks (RNNs) haben sich bei der Vorhersage von Wortsequenzen in Aufgaben wie dem Sprachmodellieren sehr erfolgreich erwiesen. Dennoch basieren alle diese Modelle auf dem konventionellen Klassifizierungsrahmen, bei dem das Modell anhand von One-Hot-Zielen trainiert wird und jedes Wort sowohl als Eingabe als auch als Ausgabe isoliert dargestellt wird. Dies führt zu Lernineffizienzen, sowohl hinsichtlich der Nutzung aller Informationen als auch in Bezug auf die Anzahl der Parameter, die zum Training benötigt werden. Wir stellen einen neuen theoretischen Rahmen vor, der das bessere Lernen im Sprachmodellieren fördert, und zeigen, dass unser Rahmen es ermöglicht, die Eingabe-Embedding-Matrizen und die Ausgabe-Projektionsmatrizen zu verbinden (to tie together), was die Anzahl der trainierbaren Variablen erheblich reduziert. Unser Rahmen führt bei verschiedenen Netzwerkmodellen zu einem Stand-des-Nachts-Ergebnis (state of the art performance) auf dem Penn Treebank-Korpus.