HyperAIHyperAI

Command Palette

Search for a command to run...

QuartzNet : Reconnaissance automatique de la parole profonde basée sur des convolutions séparables 1D temps-canale

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

Résumé

Nous proposons un nouveau modèle acoustique neuronal end-to-end pour la reconnaissance automatique de la parole. Le modèle est composé de plusieurs blocs reliés par des connexions résiduelles. Chaque bloc comprend un ou plusieurs modules comportant des couches de convolution 1D séparables temps-canale, des normalisations par lot et des couches ReLU. Le réseau est entraîné à l’aide d’une perte CTC. Le modèle proposé atteint une précision proche de l’état de l’art sur les corpus LibriSpeech et Wall Street Journal, tout en possédant un nombre de paramètres inférieur à celui de tous les modèles concurrents. Nous démontrons également que ce modèle peut être efficacement ajusté finement sur de nouveaux jeux de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
QuartzNet : Reconnaissance automatique de la parole profonde basée sur des convolutions séparables 1D temps-canale | Articles | HyperAI