HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance de la parole basée sur les lettres avec des ConvNets à portes

Vitaliy Liptchinsky Gabriel Synnaeve Ronan Collobert

Résumé

Dans la littérature récente, les systèmes de parole « end-to-end » font souvent référence à des modèles acoustiques basés sur les lettres, formés selon une approche séquence-à-séquence, soit par un modèle récurrent, soit par une approche d'apprentissage de sortie structurée (comme le CTC). Contrairement aux approches traditionnelles basées sur les phonèmes (ou les sénones), ces méthodes « end-to-end » réduisent la nécessité de modéliser la prononciation des mots et n'exigent pas une étape d'« alignement forcé » lors de l'entraînement. Néanmoins, les approches basées sur les phonèmes restent l'état de l'art dans les benchmarks classiques. Dans cet article, nous proposons un système de reconnaissance vocale basé sur les lettres, utilisant un modèle acoustique ConvNet. Les éléments clés du ConvNet sont les Unités Linéaires Gated (GLU) et un taux élevé de dropout. Le ConvNet est entraîné pour mapper des séquences audio à leurs transcriptions en lettres correspondantes, soit par une approche CTC classique, soit par une variante récente appelée ASG. Accompagné d'un décodeur simple lors de l'inférence, notre système atteint des performances comparables aux meilleurs systèmes existants basés sur les lettres sur WSJ (en termes de taux d'erreur de mots) et montre des performances quasi optimales sur LibriSpeech.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp