Command Palette
Search for a command to run...
Rein sequenztrainierte neuronale Netze für ASR auf Basis von lattice-free MMI
Rein sequenztrainierte neuronale Netze für ASR auf Basis von lattice-free MMI
Sanjeev Khudanpur Xingyu Na Yiming Wang Daniel Povey Vimal Manohar Vijayaditya Peddinti Pegah Ghahrmani Daniel Galvez
Zusammenfassung
In diesem Paper beschreiben wir eine Methode zur sequenzdiskriminativen Schätzung neuronaler akustischer Modelle, die keine framebasierte Cross-Entropy-Vortrainierung erfordert. Wir verwenden die gitterfreie Variante des Maximum-Mutual-Information-(MMI)-Kriteriums: LF-MMI. Um die Berechnung durchführbar zu machen, setzen wir ein Phone-n-Gramm-Sprachmodell anstelle eines Wort-Sprachmodells ein. Um zusätzlich die Speicher- und Zeitkomplexität zu verringern, berechnen wir die Zielfunktion mithilfe der neuronalen Netzwerk-Ausgaben mit einem Drittel der üblichen Frame-Rate. Diese Änderungen ermöglichen es uns, die Berechnung des Forward-Backward-Algorithmus auf GPUs durchzuführen. Darüber hinaus führt die reduzierte Ausgabeframe-Rate auch zu einer erheblichen Beschleunigung während der Dekodierung.Wir präsentieren Ergebnisse auf fünf verschiedenen LVCSR-Aufgaben mit Trainingsdatenmengen zwischen 100 und 2100 Stunden. Modelle, die mit LF-MMI trainiert wurden, erreichen eine relative Reduktion des Wortfehlerquotienten um etwa 11,5 % gegenüber Modellen, die mit dem Cross-Entropy-Kriterium trainiert wurden, und um etwa 8 % gegenüber Modellen, die mit Cross-Entropy und sMBR trainiert wurden. Eine zusätzliche relative Reduktion um etwa 2,5 % kann durch eine Feinabstimmung dieser Modelle mit dem auf Wortgittern basierenden sMBR-Kriterium erzielt werden.