HyperAIHyperAI
il y a 17 jours

Amélioration de la reconnaissance vocale mandarin grâce au Transformer augmenté par blocs

Xiaoming Ren, Huifeng Zhu, Liuwei Wei, Minghui Wu, Jie Hao
Amélioration de la reconnaissance vocale mandarin grâce au Transformer augmenté par blocs
Résumé

Récemment, le modèle Convolution-augmented Transformer (Conformer) a montré des résultats prometteurs en reconnaissance automatique de la parole (ASR), surpassant le meilleur modèle Transformer Transducer publié précédemment. Dans ce travail, nous estimons que les informations de sortie de chaque bloc dans l'encodeur et le décodeur ne sont pas entièrement inclusives, autrement dit, leurs sorties pourraient être complémentaires. Nous étudions comment exploiter de manière efficace les informations complémentaires fournies par chaque bloc, de façon à réduire la charge paramétrique, et nous pensons que cela pourrait conduire à une performance plus robuste. Ainsi, nous proposons une nouvelle architecture pour la reconnaissance vocale, appelée Blockformer, fondée sur une augmentation par blocs. Nous avons mis en œuvre deux méthodes d’ensemble de blocs : le modèle de somme pondérée de sortie des blocs de base (Base-WSBO), ainsi que l’extension basée sur le module Squeeze-and-Excitation appliqué à la somme pondérée des sorties des blocs (SE-WSBO). Les expériences ont démontré que le Blockformer surpasse significativement les modèles de pointe basés sur le Conformer sur le corpus AISHELL-1 : notre modèle atteint un taux d’erreur de caractères (CER) de 4,29 % sans modèle de langage, et de 4,05 % lorsqu’un modèle de langage externe est utilisé sur le jeu de test.