End-to-End-Spracherkennung unter Verwendung von lattice-free MMI

Wir präsentieren unsere Arbeit zur end-to-end-Schulung akustischer Modelle unter Verwendung der lattice-free Maximum Mutual Information (LF-MMI)-Zielfunktion im Kontext von verborgenen Markov-Modellen. Unter end-to-end-Schulung verstehen wir eine flache Start-Schulung eines einzelnen DNN in einer einzigen Phase, ohne vorher trainierte Modelle, erzwungene Alignments oder die Erstellung von Zustandsverknüpfungs-Baumstrukturen zu verwenden. Wir nutzen vollständige Biphone, um kontextabhängige Modellierung ohne Bäume zu ermöglichen, und zeigen, dass unser end-to-end-LF-MMI-Ansatz vergleichbare Ergebnisse wie die herkömmliche LF-MMI auf etablierten großen Vokabular-Aufgaben erzielt. Außerdem vergleichen wir mit anderen end-to-end-Methoden wie CTC in zeichenbasierten und lexikonfreien Szenarien und zeigen eine relative Reduktion der Wortfehlerquote um 5 bis 25 Prozent bei verschiedenen großen Vokabular-Aufgaben, wobei signifikant kleinere Modelle eingesetzt werden.