HyperAIHyperAI
il y a 17 jours

BAT : Transducteur sensible aux frontières pour une reconnaissance automatique de la parole à faible consommation mémoire et faible latence

Keyu An, Xian Shi, Shiliang Zhang
BAT : Transducteur sensible aux frontières pour une reconnaissance automatique de la parole à faible consommation mémoire et faible latence
Résumé

Récemment, le transducteur à réseaux de neurones récurrents (RNN-T) connaît une popularité croissante en raison de sa capacité naturelle à traiter en flux continu ainsi que de ses performances supérieures. Toutefois, l'entraînement du RNN-T exige des ressources importantes en temps et en calcul, car le calcul de la perte RNN-T est lent et consomme beaucoup de mémoire. Une autre limitation du RNN-T réside dans sa tendance à accéder à un plus grand contexte pour améliorer les performances, ce qui entraîne une latence d'émission plus élevée dans les systèmes de reconnaissance automatique de la parole (ASR) en flux. Dans cet article, nous proposons le transducteur conscient des frontières (BAT), destiné à une ASR à faible consommation mémoire et à faible latence. Dans BAT, le réseau utilisé pour le calcul de la perte RNN-T est réduit à une région restreinte sélectionnée à partir de l’alignement fourni par le modèle intégrer-et-émettre continu (CIF), qui est optimisé conjointement avec le modèle RNN-T. Des expériences étendues démontrent que, par rapport au RNN-T, BAT réduit de manière significative la consommation de temps et de mémoire pendant l’entraînement, tout en offrant de bons compromis entre taux d’erreur de caractères (CER) et latence lors de l’inférence pour l’ASR en flux.