HyperAIHyperAI

Command Palette

Search for a command to run...

Attention Relâchée : Une Méthode Simple pour Améliorer les Performances de la Reconnaissance Automatique de Parole End-to-End

Timo Lohrenz Patrick Schwarz Zhengyang Li Tim Fingscheidt

Résumé

Récemment, les modèles d’encodeur-décodage à attention (AED) ont démontré des performances élevées pour la reconnaissance automatique de la parole (ASR) en mode end-to-end sur plusieurs tâches. En vue de corriger le phénomène d’overconfidence (confiance excessive) observé dans ces modèles, nous introduisons dans cet article le concept d’attention relâchée, une méthode simple consistant à injecter progressivement une distribution uniforme dans les poids d’attention encodeur-décodage pendant l’entraînement, implémentable en seulement deux lignes de code. Nous étudions l’effet de cette attention relâchée sur différentes architectures de modèles AED ainsi que sur deux tâches majeures d’ASR : Wall Street Journal (WSJ) et Librispeech. Nos résultats montrent que les transformers entraînés avec l’attention relâchée surpassent de manière constante les modèles de référence standard lors de la décodage avec des modèles linguistiques externes. Sur WSJ, nous établissons un nouveau record pour les systèmes d’ASR end-to-end basés sur les transformers, avec un taux d’erreur de mot de 3,65 %, surpassant ainsi l’état de l’art (4,20 %) de 13,1 % en termes relatifs, tout en introduisant uniquement un seul hyperparamètre.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp