HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End-Spracherkennung unter Verwendung von lattice-free MMI

Sanjeev Khudanpur Daniel Povey Hossein Sameti Hossein Hadian

Zusammenfassung

Wir präsentieren unsere Arbeit zur end-to-end-Schulung akustischer Modelle unter Verwendung der lattice-free Maximum Mutual Information (LF-MMI)-Zielfunktion im Kontext von verborgenen Markov-Modellen. Unter end-to-end-Schulung verstehen wir eine flache Start-Schulung eines einzelnen DNN in einer einzigen Phase, ohne vorher trainierte Modelle, erzwungene Alignments oder die Erstellung von Zustandsverknüpfungs-Baumstrukturen zu verwenden. Wir nutzen vollständige Biphone, um kontextabhängige Modellierung ohne Bäume zu ermöglichen, und zeigen, dass unser end-to-end-LF-MMI-Ansatz vergleichbare Ergebnisse wie die herkömmliche LF-MMI auf etablierten großen Vokabular-Aufgaben erzielt. Außerdem vergleichen wir mit anderen end-to-end-Methoden wie CTC in zeichenbasierten und lexikonfreien Szenarien und zeigen eine relative Reduktion der Wortfehlerquote um 5 bis 25 Prozent bei verschiedenen großen Vokabular-Aufgaben, wobei signifikant kleinere Modelle eingesetzt werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp