Skip-gram-Sprachmodellierung mit dünnbesetzter nichtnegativer Matrixwahrscheinlichkeitschätzung

Wir stellen eine neue Familie von Schätzverfahren für Sprachmodelle (LM) vor, die als Sparse Non-negative Matrix (SNM)-Schätzung bezeichnet wird. Eine erste Reihe von Experimenten, die es auf dem One Billion Word Benchmark empirisch evaluiert, zeigt, dass SNM-$n$-Gramm-LMs fast ebenso gut abschneiden wie die etablierten Kneser-Ney (KN)-Modelle. Bei Verwendung von Skip-Gram-Merkmale können die Modelle den aktuellen Stand der Technik in Form von rekurrenten neuronalen Netzen (RNN)-LMs erreichen; die Kombination beider Modellierungsansätze ergibt das bislang beste bekannte Ergebnis im Benchmark. Die rechnerischen Vorteile von SNM gegenüber sowohl Maximum-Entropy- als auch RNN-LM-Schätzverfahren sind wahrscheinlich ihre Hauptstärke und versprechen einen Ansatz, der die gleiche Flexibilität bei der effektiven Kombination beliebiger Merkmale bietet und sich so gut wie $n$-Gramm-LMs auf sehr große Datenmengen skalieren sollte.