HyperAIHyperAI

Command Palette

Search for a command to run...

Eine Milliarde Wörter Benchmark zur Messung des Fortschritts in der statistischen Sprachmodellierung

Ciprian Chelba Tomas Mikolov Mike Schuster Qi Ge Thorsten Brants Phillipp Koehn Tony Robinson

Zusammenfassung

Wir schlagen ein neues Benchmark-Korpus vor, das für die Messung des Fortschritts im statistischen Sprachmodellieren verwendet werden soll. Mit fast einer Milliarde Wörtern als Trainingsdaten hoffen wir, dass dieses Benchmark-Korpus nützlich sein wird, um neue Sprachmodellierungsverfahren schnell zu evaluieren und deren Beitrag bei der Kombination mit anderen fortgeschrittenen Verfahren zu vergleichen. Wir zeigen die Leistung verschiedener bekannter Arten von Sprachmodellen auf, wobei das beste Ergebnis mit einem rekurrenten Neuronalen Netzwerk-basierten Sprachmodell erreicht wurde. Das Baseline-Modell ohne Pruning (unpruned) nach Kneser-Ney 5-Gramm erreicht eine Perplexität von 67,6; eine Kombination von Techniken führt zu einer Reduktion der Perplexität um 35 % oder einer Reduktion des Kreuzentropiewerts (Bits) um 10 % gegenüber dieser Baseline.Das Benchmark-Korpus ist als Projekt auf code.google.com verfügbar; neben den Skripten, die benötigt werden, um die Trainings- und Validierungsdaten neu zu erstellen, stellt es auch Log-Wahrscheinlichkeitswerte für jedes Wort in jedem der zehn Validierungsdatensätze für jedes der Baseline-n-Gramm-Modelle zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp