HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la reconnaissance vocale de bout en bout avec l'apprentissage par politiques

Yingbo Zhou; Caiming Xiong; Richard Socher

Résumé

La classification temporelle connexionniste (CTC) est largement utilisée pour l'apprentissage par maximum de vraisemblance dans les modèles de reconnaissance vocale bout à bout. Cependant, il existe généralement une disparité entre le maximum de vraisemblance négative et la métrique de performance utilisée en reconnaissance vocale, par exemple, le taux d'erreur de mots (WER). Ceci entraîne un décalage entre la fonction objectif et la métrique pendant l'entraînement. Nous montrons que le problème mentionné ci-dessus peut être atténué en entraînant conjointement avec le maximum de vraisemblance et le gradient de politique. En particulier, grâce à l'apprentissage par politique, nous sommes capables d'optimiser directement la métrique de performance (sinon non différentiable). Nous démontrons que l'entraînement conjoint améliore les performances relatives de 4% à 13% pour notre modèle bout à bout par rapport au même modèle appris par maximum de vraisemblance. Le modèle atteint un taux d'erreur de mots (WER) de 5,53% sur l'ensemble du dataset Wall Street Journal, et des taux respectifs de 5,42% et 14,70% sur les ensembles test-clean et test-other du dataset Librispeech.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration de la reconnaissance vocale de bout en bout avec l'apprentissage par politiques | Articles | HyperAI