Eine Milliarde Wörter Benchmark zur Messung des Fortschritts in der statistischen Sprachmodellierung

Wir schlagen ein neues Benchmark-Korpus vor, das für die Messung des Fortschritts im statistischen Sprachmodellieren verwendet werden soll. Mit fast einer Milliarde Wörtern als Trainingsdaten hoffen wir, dass dieses Benchmark-Korpus nützlich sein wird, um neue Sprachmodellierungsverfahren schnell zu evaluieren und deren Beitrag bei der Kombination mit anderen fortgeschrittenen Verfahren zu vergleichen. Wir zeigen die Leistung verschiedener bekannter Arten von Sprachmodellen auf, wobei das beste Ergebnis mit einem rekurrenten Neuronalen Netzwerk-basierten Sprachmodell erreicht wurde. Das Baseline-Modell ohne Pruning (unpruned) nach Kneser-Ney 5-Gramm erreicht eine Perplexität von 67,6; eine Kombination von Techniken führt zu einer Reduktion der Perplexität um 35 % oder einer Reduktion des Kreuzentropiewerts (Bits) um 10 % gegenüber dieser Baseline.Das Benchmark-Korpus ist als Projekt auf code.google.com verfügbar; neben den Skripten, die benötigt werden, um die Trainings- und Validierungsdaten neu zu erstellen, stellt es auch Log-Wahrscheinlichkeitswerte für jedes Wort in jedem der zehn Validierungsdatensätze für jedes der Baseline-n-Gramm-Modelle zur Verfügung.