il y a 2 mois

Systèmes RWTH ASR pour LibriSpeech : Hybride vs Attention -- sans augmentation de données

Christoph Lüscher; Eugen Beck; Kazuki Irie; Markus Kitza; Wilfried Michel; Albert Zeyer; Ralf Schlüter; Hermann Ney

Résumé

Nous présentons des systèmes de reconnaissance automatique de la parole (ASR) d'avant-garde utilisant une architecture hybride DNN/HMM standard en comparaison avec un design encodeur-décodeur basé sur l'attention pour la tâche LibriSpeech. Des descriptions détaillées du développement des systèmes, y compris la conception des modèles, les schémas de préformation, les calendriers d'entraînement et les approches d'optimisation, sont fournies pour les deux architectures de systèmes. Les deux systèmes hybrides DNN/HMM et basés sur l'attention utilisent des LSTM bidirectionnels pour le modèle acoustique/la codification. Pour le modèle linguistique, nous utilisons à la fois des architectures basées sur les LSTM et les Transformers. Tous nos systèmes sont construits à l'aide des outils open-source RASR et RETURNN de l'RWTH Aachen. Selon les connaissances actuelles des auteurs, les résultats obtenus lors de l'entraînement sur l'ensemble complet d'entraînement LibriSpeech sont actuellement les meilleurs publiés, tant pour les systèmes hybrides DNN/HMM que pour ceux basés sur l'attention. Notre système hybride unique dépasse même les résultats précédents obtenus en combinant huit systèmes individuels. Notre comparaison montre que sur la tâche LibriSpeech 960 heures, le système hybride DNN/HMM surpasses le système basé sur l'attention de 15% relatif dans le jeu de tests propre et de 40% relatif dans les autres jeux de tests en termes de taux d'erreur mot. De plus, des expériences menées sur un sous-ensemble réduit de 100 heures du corpus d'entraînement LibriSpeech montrent une marge encore plus prononcée entre l'architecture hybride DNN/HMM et celle basée sur l'attention.