Rein sequenztrainierte neuronale Netze für ASR auf Basis von lattice-free MMI

In diesem Paper beschreiben wir eine Methode zur sequenzdiskriminativen Schätzung neuronaler akustischer Modelle, die keine framebasierte Cross-Entropy-Vortrainierung erfordert. Wir verwenden die gitterfreie Variante des Maximum-Mutual-Information-(MMI)-Kriteriums: LF-MMI. Um die Berechnung durchführbar zu machen, setzen wir ein Phone-n-Gramm-Sprachmodell anstelle eines Wort-Sprachmodells ein. Um zusätzlich die Speicher- und Zeitkomplexität zu verringern, berechnen wir die Zielfunktion mithilfe der neuronalen Netzwerk-Ausgaben mit einem Drittel der üblichen Frame-Rate. Diese Änderungen ermöglichen es uns, die Berechnung des Forward-Backward-Algorithmus auf GPUs durchzuführen. Darüber hinaus führt die reduzierte Ausgabeframe-Rate auch zu einer erheblichen Beschleunigung während der Dekodierung.Wir präsentieren Ergebnisse auf fünf verschiedenen LVCSR-Aufgaben mit Trainingsdatenmengen zwischen 100 und 2100 Stunden. Modelle, die mit LF-MMI trainiert wurden, erreichen eine relative Reduktion des Wortfehlerquotienten um etwa 11,5 % gegenüber Modellen, die mit dem Cross-Entropy-Kriterium trainiert wurden, und um etwa 8 % gegenüber Modellen, die mit Cross-Entropy und sMBR trainiert wurden. Eine zusätzliche relative Reduktion um etwa 2,5 % kann durch eine Feinabstimmung dieser Modelle mit dem auf Wortgittern basierenden sMBR-Kriterium erzielt werden.