HyperAIHyperAI

Command Palette

Search for a command to run...

Jasper : Un Modèle Acoustique Neuronal Convolutif de la Première à la Dernière Couche

Jason Li Vitaly Lavrukhin Boris Ginsburg Ryan Leary Oleksii Kuchaiev Jonathan M. Cohen Huyen Nguyen Ravi Teja Gadde

Résumé

Dans cet article, nous présentons des résultats de pointe sur LibriSpeech parmi les modèles de reconnaissance vocale de bout en bout sans données d'entraînement externes. Notre modèle, Jasper, utilise uniquement des convolutions 1D, une normalisation par lots (batch normalization), une fonction d'activation ReLU, un dropout et des connexions résiduelles. Pour améliorer l'entraînement, nous introduisons également un nouvel optimiseur couche par couche appelé NovoGrad. Par le biais d'expériences, nous démontrons que l'architecture profonde proposée performe aussi bien ou mieux que des choix plus complexes. La variante la plus profonde de Jasper utilise 54 couches de convolution. Avec cette architecture, nous obtenons un taux d'erreur de reconnaissance (WER) de 2,95 % en utilisant un décodeur à recherche dans un faisceau (beam-search decoder) avec un modèle linguistique neuronal externe et un WER de 3,86 % avec un décodeur glouton (greedy decoder) sur le jeu de test "clean" de LibriSpeech. Nous rapportons également des résultats compétitifs sur les jeux de données d'évaluation conversationnels du Wall Street Journal et du Hub5’00.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp