HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de neurones amortis pour la reconnaissance vocale à faible latence

Jonathan Macoskey Grant P. Strimel Jinru Su Ariya Rastrow

Résumé

Nous introduisons les Réseaux Neuronaux Amortis (AmNets), une architecture de réseau adaptée aux contraintes de coût informatique et de latence, particulièrement bien adaptée aux tâches de modélisation de séquences. Nous appliquons les AmNets au Transducteur à Réseaux de Neurones Récurrents (RNN-T) afin de réduire le coût informatique et la latence dans une tâche de reconnaissance automatique de parole (ASR). L’architecture RNN-T basée sur les AmNets permet au réseau de basculer dynamiquement entre différentes branches de l’encodeur, cadre par cadre. Ces branches sont conçues avec des niveaux variables de coût informatique et de capacité du modèle. Dans cette étude, nous mettons en œuvre un coût informatique variable à l’aide de deux techniques bien établies : une première utilisant une élagage creux (sparse pruning), et une seconde reposant sur une factorisation matricielle. Le basculement cadre par cadre est déterminé par un réseau arbitrateur nécessitant une surcharge computationnelle négligeable. Nous présentons les résultats obtenus avec ces deux architectures sur le jeu de données LibriSpeech, et montrons que notre architecture proposée permet de réduire le coût d’inférence jusqu’à 45 % et de ramener la latence à un niveau quasi en temps réel, sans perte de précision.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp