HyperAIHyperAI
il y a 2 mois

Amélioration de la formation des modèles d'attention de bout en bout pour la reconnaissance vocale

Albert Zeyer; Kazuki Irie; Ralf Schlüter; Hermann Ney
Amélioration de la formation des modèles d'attention de bout en bout pour la reconnaissance vocale
Résumé

Les modèles de séquence à séquence basés sur l'attention utilisant des unités sous-mot permettent une reconnaissance vocale de bout en bout avec un vocabulaire ouvert simple. Dans ce travail, nous montrons que ces modèles peuvent obtenir des résultats compétitifs sur les tâches Switchboard 300h et LibriSpeech 1000h. En particulier, nous rapportons les taux d'erreur de mots (WER) les plus avancés à ce jour de 3,54 % sur l'ensemble d'évaluation dev-clean et de 3,82 % sur l'ensemble d'évaluation test-clean de LibriSpeech. Nous introduisons un nouveau schéma de préformation en commençant par un facteur de réduction temporelle élevé et en le diminuant au cours de la formation, ce qui est crucial pour la convergence et les performances finales. Dans certaines expériences, nous utilisons également une fonction de perte CTC auxiliaire pour aider à la convergence. De plus, nous formons des modèles de langage à mémoire à court et long terme (LSTM) sur des unités sous-mot. Par fusion superficielle, nous rapportons jusqu'à 27 % d'améliorations relatives du WER par rapport à la ligne de base basée sur l'attention sans modèle de langage.