Command Palette
Search for a command to run...
Neuronale Netzwerk-Sprachmodellierung mit Buchstabenbasierten Merkmalen und Importance Sampling
Neuronale Netzwerk-Sprachmodellierung mit Buchstabenbasierten Merkmalen und Importance Sampling
Xie Chen Sanjeev Khudanpur Ke Li Jian Wang Yiming Wang Daniel Povey Hainan Xu Shiyin Kang
Zusammenfassung
In diesem Artikel beschreiben wir eine Erweiterung des Kaldi-Software-Toolkits zur Unterstützung neuronaler Sprachmodelle, die für die automatische Spracherkennung (ASR) und verwandte Aufgaben vorgesehen sind. Wir kombinieren die Verwendung von Subword-Features (Buchstaben-n-Gramme) mit der One-Hot-Codierung häufiger Wörter, sodass die Modelle große Vokabulare mit seltenen Wörtern effektiv verarbeiten können. Wir stellen eine neue Ziel-Funktion vor, die die Schätzung von unnormalisierten Wahrscheinlichkeiten ermöglicht. Zur Beschleunigung des Trainings bei großen Vokabularen wird ein Verfahren basierend auf Importance Sampling unterstützt. Experimentelle Ergebnisse auf fünf Korpora zeigen, dass Kaldi-RNNLM andere Toolkits für rekurrente neuronale Sprachmodelle sowohl hinsichtlich der Leistungsfähigkeit als auch der Trainingsgeschwindigkeit übertrifft.