il y a 17 jours

Modèle unifié à deux passes en continu et non continu pour la reconnaissance vocale

Binbin Zhang, Di Wu, Zhuoyuan Yao, Xiong Wang, Fan Yu, Chao Yang, Liyong Guo, Yaguang Hu, Lei Xie, Xin Lei

Résumé

Dans cet article, nous présentons une nouvelle approche en deux passes permettant de unifier, au sein d’un seul modèle, la reconnaissance vocale en continu (streaming) et hors continu (non-streaming) en mode bout-en-bout (end-to-end, E2E). Notre modèle repose sur une architecture hybride CTC/attention, dans laquelle les couches conformer du module encodeur sont modifiées. Nous proposons une stratégie d’attention basée sur des tranches dynamiques, permettant une longueur de contexte droit arbitraire. Lors de l’inférence, le décodeur CTC génère des hypothèses n-best de manière continue. La latence d’inférence peut être facilement contrôlée en ne modifiant que la taille des tranches. Ces hypothèses CTC sont ensuite réévaluées par le décodeur attention pour obtenir le résultat final. Ce processus de réévaluation efficace induit une latence au niveau de la phrase négligeable. Nos expériences sur le jeu de données ouvert AISHELL-1 de 170 heures montrent que la méthode proposée permet de unifier de manière simple et efficace les modèles streaming et non-streaming. Sur le jeu de test AISHELL-1, notre modèle unifié obtient une réduction de 5,60 % du taux d’erreur en caractères (CER) en reconnaissance vocale non-streaming par rapport à un modèle Transformer non-streaming standard. Le même modèle atteint un CER de 5,42 % avec une latence de 640 ms dans un système de reconnaissance vocale streaming.