
要約
新しい言語モデル(LM)推定技術であるスパース非負行列(Sparse Non-negative Matrix: SNM)推定の手法を紹介します。One Billion Word BenchmarkにおいてSNM $n$-gram LMの性能を実験的に評価した結果、確立されたKneser-Ney (KN) モデルとほぼ同等の性能を示しました。スキップグラム特徴量を使用すると、これらのモデルは最先端の再帰型ニューラルネットワーク(Recurrent Neural Network: RNN)LMに匹敵する性能を発揮します。これら2つのモデリング手法を組み合わせることで、ベンチマーク上でこれまでに知られている最良の結果が得られました。SNMは最大エントロピー法およびRNN LM推定と比較して計算上の優位性があり、これがおそらくその主な強みです。SNMは任意の特徴量を効果的に組み合わせる柔軟性を持ちつつ、$n$-gram LMと同様に非常に大量のデータにも対応できる可能性を示しています。