HyperAIHyperAI

Command Palette

Search for a command to run...

ContextNet : Amélioration des réseaux de neurones convolutionnels pour la reconnaissance automatique de la parole grâce au contexte global

Wei Han Zhengdong Zhang Yu Zhang Jiahui Yu Chung-Cheng Chiu James Qin Anmol Gulati Ruoming Pang Yonghui Wu

Résumé

Les réseaux de neurones convolutifs (CNN) ont montré des résultats prometteurs pour la reconnaissance vocale end-to-end, bien qu’ils restent encore inférieurs aux méthodes de pointe en matière de performance. Dans cet article, nous étudions comment combler cet écart et aller au-delà grâce à une nouvelle architecture CNN-RNN-transducer que nous appelons ContextNet. ContextNet repose sur un encodeur entièrement convolutif qui intègre des informations contextuelles globales au sein des couches de convolution grâce à l’ajout de modules squeeze-and-excitation. En outre, nous proposons une méthode simple d’agrandissement (scaling) qui permet d’ajuster les largeurs de ContextNet, offrant un bon compromis entre complexité computationnelle et précision. Nous démontrons que sur le benchmark largement utilisé LibriSpeech, ContextNet atteint un taux d’erreur de mot (WER) de 2,1 %/4,6 % sans modèle linguistique externe (LM), de 1,9 %/4,1 % avec LM, et de 2,9 %/7,0 % avec seulement 10 millions de paramètres sur les ensembles de test propres/bruyants de LibriSpeech. Ces résultats surpassent le système précédemment publié le plus performant, qui atteignait 2,0 %/4,6 % avec LM et 3,9 %/11,3 % avec 20 millions de paramètres. La supériorité du modèle ContextNet proposée est également confirmée sur un jeu de données interne bien plus important.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ContextNet : Amélioration des réseaux de neurones convolutionnels pour la reconnaissance automatique de la parole grâce au contexte global | Articles | HyperAI