HyperAIHyperAI

Command Palette

Search for a command to run...

BAT : Transducteur sensible aux frontières pour une reconnaissance automatique de la parole à faible consommation mémoire et faible latence

Keyu An Xian Shi Shiliang Zhang

Résumé

Récemment, le transducteur à réseaux de neurones récurrents (RNN-T) connaît une popularité croissante en raison de sa capacité naturelle à traiter en flux continu ainsi que de ses performances supérieures. Toutefois, l'entraînement du RNN-T exige des ressources importantes en temps et en calcul, car le calcul de la perte RNN-T est lent et consomme beaucoup de mémoire. Une autre limitation du RNN-T réside dans sa tendance à accéder à un plus grand contexte pour améliorer les performances, ce qui entraîne une latence d'émission plus élevée dans les systèmes de reconnaissance automatique de la parole (ASR) en flux. Dans cet article, nous proposons le transducteur conscient des frontières (BAT), destiné à une ASR à faible consommation mémoire et à faible latence. Dans BAT, le réseau utilisé pour le calcul de la perte RNN-T est réduit à une région restreinte sélectionnée à partir de l’alignement fourni par le modèle intégrer-et-émettre continu (CIF), qui est optimisé conjointement avec le modèle RNN-T. Des expériences étendues démontrent que, par rapport au RNN-T, BAT réduit de manière significative la consommation de temps et de mémoire pendant l’entraînement, tout en offrant de bons compromis entre taux d’erreur de caractères (CER) et latence lors de l’inférence pour l’ASR en flux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp