il y a 3 mois

Réseaux de neurones amortis pour la reconnaissance vocale à faible latence

Jonathan Macoskey, Grant P. Strimel, Jinru Su, Ariya Rastrow

Résumé

Nous introduisons les Réseaux Neuronaux Amortis (AmNets), une architecture de réseau adaptée aux contraintes de coût informatique et de latence, particulièrement bien adaptée aux tâches de modélisation de séquences. Nous appliquons les AmNets au Transducteur à Réseaux de Neurones Récurrents (RNN-T) afin de réduire le coût informatique et la latence dans une tâche de reconnaissance automatique de parole (ASR). L’architecture RNN-T basée sur les AmNets permet au réseau de basculer dynamiquement entre différentes branches de l’encodeur, cadre par cadre. Ces branches sont conçues avec des niveaux variables de coût informatique et de capacité du modèle. Dans cette étude, nous mettons en œuvre un coût informatique variable à l’aide de deux techniques bien établies : une première utilisant une élagage creux (sparse pruning), et une seconde reposant sur une factorisation matricielle. Le basculement cadre par cadre est déterminé par un réseau arbitrateur nécessitant une surcharge computationnelle négligeable. Nous présentons les résultats obtenus avec ces deux architectures sur le jeu de données LibriSpeech, et montrons que notre architecture proposée permet de réduire le coût d’inférence jusqu’à 45 % et de ramener la latence à un niveau quasi en temps réel, sans perte de précision.