HyperAIHyperAI

Command Palette

Search for a command to run...

Conformer étatique avec inférence basée sur le cache pour la reconnaissance automatique parlée en flux

Vahid Noroozi Somshubra Majumdar Ankur Kumar Jagadeesh Balam Boris Ginsburg

Résumé

Dans cet article, nous proposons un modèle efficace et précis de reconnaissance vocale en flux basé sur l’architecture FastConformer. Nous avons adapté l’architecture FastConformer aux applications en flux en : (1) restreignant à la fois les contextes anticipés (look-ahead) et passés dans l’encodeur, et (2) introduisant un mécanisme de mise en mémoire tampon des activations afin de permettre à l’encodeur non autoregressif de fonctionner de manière autoregressive pendant l’inférence. Le modèle proposé est soigneusement conçu pour éliminer l’écart d’exactitude entre les phases d’entraînement et d’inférence, un phénomène fréquent dans de nombreux modèles en flux. En outre, notre encodeur proposé est compatible avec diverses configurations de décodeurs, notamment les décodeurs Connectionist Temporal Classification (CTC) et RNN-Transducer (RNNT). Par ailleurs, nous avons introduit une architecture hybride CTC/RNNT qui utilise un encodeur partagé associé à un décodeur CTC et un décodeur RNNT, permettant ainsi d’améliorer l’exactitude tout en réduisant la charge computationnelle. Nous évaluons le modèle proposé sur le jeu de données LibriSpeech ainsi que sur un jeu de données à grande échelle multi-domaines, et démontrons qu’il permet d’atteindre une meilleure précision avec une latence et un temps d’inférence plus faibles par rapport à une base classique de modèle en flux à mémoire tampon. Nous montrons également que l’entraînement d’un modèle avec plusieurs niveaux de latence permet d’obtenir une meilleure précision que les modèles à latence unique, tout en permettant de supporter plusieurs niveaux de latence avec un seul modèle. Nos expériences montrent également que l’architecture hybride accélère non seulement la convergence du décodeur CTC, mais améliore également l’exactitude des modèles en flux par rapport aux modèles utilisant un seul décodeur.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp