HyperAIHyperAI
il y a 4 mois

Amélioration de la reconnaissance vocale de bout en bout avec l'apprentissage par politiques

Yingbo Zhou; Caiming Xiong; Richard Socher
Amélioration de la reconnaissance vocale de bout en bout avec l'apprentissage par politiques
Résumé

La classification temporelle connexionniste (CTC) est largement utilisée pour l'apprentissage par maximum de vraisemblance dans les modèles de reconnaissance vocale bout à bout. Cependant, il existe généralement une disparité entre le maximum de vraisemblance négative et la métrique de performance utilisée en reconnaissance vocale, par exemple, le taux d'erreur de mots (WER). Ceci entraîne un décalage entre la fonction objectif et la métrique pendant l'entraînement. Nous montrons que le problème mentionné ci-dessus peut être atténué en entraînant conjointement avec le maximum de vraisemblance et le gradient de politique. En particulier, grâce à l'apprentissage par politique, nous sommes capables d'optimiser directement la métrique de performance (sinon non différentiable). Nous démontrons que l'entraînement conjoint améliore les performances relatives de 4% à 13% pour notre modèle bout à bout par rapport au même modèle appris par maximum de vraisemblance. Le modèle atteint un taux d'erreur de mots (WER) de 5,53% sur l'ensemble du dataset Wall Street Journal, et des taux respectifs de 5,42% et 14,70% sur les ensembles test-clean et test-other du dataset Librispeech.