HyperAIHyperAI
il y a 2 mois

Reconnaissance vocale de bout en bout avec étapes de calcul adaptatives

Mohan Li; Min Liu; Masanori Hattori
Reconnaissance vocale de bout en bout avec étapes de calcul adaptatives
Résumé

Dans cet article, nous présentons l'algorithme de Pas de Calcul Adaptatif (Adaptive Computation Steps - ACS), qui permet aux modèles de reconnaissance vocale de bout en bout de décider dynamiquement du nombre de trames à traiter pour prédire une sortie linguistique. Le modèle utilisant l'algorithme ACS s'inscrit dans le cadre encodeur-décodeur, tout en différant des modèles basés sur l'attention par la production d'alignements indépendamment au niveau de l'encodeur, en utilisant la corrélation entre les trames adjacentes. Ainsi, des prédictions peuvent être faites dès que suffisamment d'informations acoustiques sont reçues, ce qui rend le modèle applicable dans des cas en ligne. De plus, une petite modification est apportée à l'étape de décodage du cadre encodeur-décodeur, permettant à la prédiction d'exploiter des contextes bidirectionnels. Nous avons vérifié l'algorithme ACS sur un corpus vocal mandarin AIShell-1, où il atteint un taux d'erreur caractère (CER) de 31,2 % dans le cas en ligne, contre 32,4 % pour le modèle basé sur l'attention. Pour démontrer pleinement l'avantage de l'algorithme ACS, des expériences hors ligne ont été menées, au cours desquelles notre modèle ACS a atteint un CER de 18,7 %, surpassant le modèle basé sur l'attention avec un CER de 22,0 %.