HyperAIHyperAI

Command Palette

Search for a command to run...

Die Verbesserung der end-to-end Spracherkennung durch Policy Learning

Yingbo Zhou; Caiming Xiong; Richard Socher

Zusammenfassung

Die connectionistische temporale Klassifikation (CTC) wird weit verbreitet für das Maximum-Likelihood-Lernen in end-to-end Spracherkennungsmodellen verwendet. Allerdings gibt es in der Regel eine Diskrepanz zwischen dem negativen Maximum-Likelihood und dem Leistungsmetriken, die in der Spracherkennung verwendet werden, z.B. der Wortfehlerquote (WER). Dies führt zu einem Missverhältnis zwischen der Zielfunktion und der Metrik während des Trainings. Wir zeigen, dass das oben beschriebene Problem durch gemeinsames Training mit Maximum-Likelihood und Policy-Gradienten gemindert werden kann. Insbesondere ermöglicht uns das Policy-Lernen die direkte Optimierung anhand der (sonst nicht differenzierbaren) Leistungsmetrik. Wir demonstrieren, dass das gemeinsame Training die relative Leistung unseres end-to-end Modells um 4% bis 13% verbessert im Vergleich zum gleichen Modell, das durch Maximum-Likelihood gelernt wurde. Das Modell erreicht eine WER von 5,53% auf dem Wall Street Journal Datensatz sowie 5,42% und 14,70% auf den Testsets test-clean und test-other von Librispeech, jeweils.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Verbesserung der end-to-end Spracherkennung durch Policy Learning | Paper | HyperAI