1ヶ月前
統計的言語モデルの進歩を測定するための10億単語ベンチマーク
Ciprian Chelba; Tomas Mikolov; Mike Schuster; Qi Ge; Thorsten Brants; Phillipp Koehn; Tony Robinson

要約
統計的言語モデルの進歩を測定するために新しいベンチマークコーパスを提案します。約10億語の学習データを含むこのベンチマークは、新しい言語モデリング技術を迅速に評価し、他の先進的な技術と組み合わせた際の貢献度を比較するのに役立つことを期待しています。いくつかの既知の言語モデルの性能を示し、最良の結果は再帰型ニューラルネットワークに基づく言語モデルで得られました。ベースラインとなる未剪枝Kneser-Ney 5-gramモデルはパープレキシティ67.6を達成しました;複数の技術を組み合わせることで、このベースラインに対してパープレキシティが35%減少し、クロスエントロピー(ビット)では10%減少しました。このベンチマークはcode.google.comプロジェクトとして公開されており、学習データ/ホールドアウトデータを作成するためのスクリプトだけでなく、各ベースラインn-gramモデルにおける10つのホールドアウトデータセットそれぞれの単語に対する対数確率値も提供されています。