HyperAIHyperAI
vor 4 Monaten

Die Verbesserung der end-to-end Spracherkennung durch Policy Learning

Yingbo Zhou; Caiming Xiong; Richard Socher
Die Verbesserung der end-to-end Spracherkennung durch Policy Learning
Abstract

Die connectionistische temporale Klassifikation (CTC) wird weit verbreitet für das Maximum-Likelihood-Lernen in end-to-end Spracherkennungsmodellen verwendet. Allerdings gibt es in der Regel eine Diskrepanz zwischen dem negativen Maximum-Likelihood und dem Leistungsmetriken, die in der Spracherkennung verwendet werden, z.B. der Wortfehlerquote (WER). Dies führt zu einem Missverhältnis zwischen der Zielfunktion und der Metrik während des Trainings. Wir zeigen, dass das oben beschriebene Problem durch gemeinsames Training mit Maximum-Likelihood und Policy-Gradienten gemindert werden kann. Insbesondere ermöglicht uns das Policy-Lernen die direkte Optimierung anhand der (sonst nicht differenzierbaren) Leistungsmetrik. Wir demonstrieren, dass das gemeinsame Training die relative Leistung unseres end-to-end Modells um 4% bis 13% verbessert im Vergleich zum gleichen Modell, das durch Maximum-Likelihood gelernt wurde. Das Modell erreicht eine WER von 5,53% auf dem Wall Street Journal Datensatz sowie 5,42% und 14,70% auf den Testsets test-clean und test-other von Librispeech, jeweils.