il y a 17 jours

Attention Relâchée : Une Méthode Simple pour Améliorer les Performances de la Reconnaissance Automatique de Parole End-to-End

Timo Lohrenz, Patrick Schwarz, Zhengyang Li, Tim Fingscheidt

Résumé

Récemment, les modèles d’encodeur-décodage à attention (AED) ont démontré des performances élevées pour la reconnaissance automatique de la parole (ASR) en mode end-to-end sur plusieurs tâches. En vue de corriger le phénomène d’overconfidence (confiance excessive) observé dans ces modèles, nous introduisons dans cet article le concept d’attention relâchée, une méthode simple consistant à injecter progressivement une distribution uniforme dans les poids d’attention encodeur-décodage pendant l’entraînement, implémentable en seulement deux lignes de code. Nous étudions l’effet de cette attention relâchée sur différentes architectures de modèles AED ainsi que sur deux tâches majeures d’ASR : Wall Street Journal (WSJ) et Librispeech. Nos résultats montrent que les transformers entraînés avec l’attention relâchée surpassent de manière constante les modèles de référence standard lors de la décodage avec des modèles linguistiques externes. Sur WSJ, nous établissons un nouveau record pour les systèmes d’ASR end-to-end basés sur les transformers, avec un taux d’erreur de mot de 3,65 %, surpassant ainsi l’état de l’art (4,20 %) de 13,1 % en termes relatifs, tout en introduisant uniquement un seul hyperparamètre.