HyperAIHyperAI

Command Palette

Search for a command to run...

Modèle unifié à deux passes en continu et non continu pour la reconnaissance vocale

Binbin Zhang Di Wu Zhuoyuan Yao Xiong Wang Fan Yu Chao Yang Liyong Guo Yaguang Hu Lei Xie Xin Lei

Résumé

Dans cet article, nous présentons une nouvelle approche en deux passes permettant de unifier, au sein d’un seul modèle, la reconnaissance vocale en continu (streaming) et hors continu (non-streaming) en mode bout-en-bout (end-to-end, E2E). Notre modèle repose sur une architecture hybride CTC/attention, dans laquelle les couches conformer du module encodeur sont modifiées. Nous proposons une stratégie d’attention basée sur des tranches dynamiques, permettant une longueur de contexte droit arbitraire. Lors de l’inférence, le décodeur CTC génère des hypothèses n-best de manière continue. La latence d’inférence peut être facilement contrôlée en ne modifiant que la taille des tranches. Ces hypothèses CTC sont ensuite réévaluées par le décodeur attention pour obtenir le résultat final. Ce processus de réévaluation efficace induit une latence au niveau de la phrase négligeable. Nos expériences sur le jeu de données ouvert AISHELL-1 de 170 heures montrent que la méthode proposée permet de unifier de manière simple et efficace les modèles streaming et non-streaming. Sur le jeu de test AISHELL-1, notre modèle unifié obtient une réduction de 5,60 % du taux d’erreur en caractères (CER) en reconnaissance vocale non-streaming par rapport à un modèle Transformer non-streaming standard. Le même modèle atteint un CER de 5,42 % avec une latence de 640 ms dans un système de reconnaissance vocale streaming.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp