HyperAIHyperAI

Command Palette

Search for a command to run...

Systèmes RWTH ASR pour LibriSpeech : Hybride vs Attention -- sans augmentation de données

Christoph Lüscher¹, Eugen Beck¹,², Kazuki Irie¹, Markus Kitza¹, Wilfried Michel¹,², Albert Zeyer¹,², Ralf Schlüter¹, Hermann Ney¹,²

Résumé

Nous présentons des systèmes de reconnaissance automatique de la parole (ASR) d'avant-garde utilisant une architecture hybride DNN/HMM standard en comparaison avec un design encodeur-décodeur basé sur l'attention pour la tâche LibriSpeech. Des descriptions détaillées du développement des systèmes, y compris la conception des modèles, les schémas de préformation, les calendriers d'entraînement et les approches d'optimisation, sont fournies pour les deux architectures de systèmes. Les deux systèmes hybrides DNN/HMM et basés sur l'attention utilisent des LSTM bidirectionnels pour le modèle acoustique/la codification. Pour le modèle linguistique, nous utilisons à la fois des architectures basées sur les LSTM et les Transformers. Tous nos systèmes sont construits à l'aide des outils open-source RASR et RETURNN de l'RWTH Aachen. Selon les connaissances actuelles des auteurs, les résultats obtenus lors de l'entraînement sur l'ensemble complet d'entraînement LibriSpeech sont actuellement les meilleurs publiés, tant pour les systèmes hybrides DNN/HMM que pour ceux basés sur l'attention. Notre système hybride unique dépasse même les résultats précédents obtenus en combinant huit systèmes individuels. Notre comparaison montre que sur la tâche LibriSpeech 960 heures, le système hybride DNN/HMM surpasses le système basé sur l'attention de 15% relatif dans le jeu de tests propre et de 40% relatif dans les autres jeux de tests en termes de taux d'erreur mot. De plus, des expériences menées sur un sous-ensemble réduit de 100 heures du corpus d'entraînement LibriSpeech montrent une marge encore plus prononcée entre l'architecture hybride DNN/HMM et celle basée sur l'attention.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp