HyperAIHyperAI
il y a 4 mois

Reconnaissance de la parole basée sur les lettres avec des ConvNets à portes

Vitaliy Liptchinsky; Gabriel Synnaeve; Ronan Collobert
Reconnaissance de la parole basée sur les lettres avec des ConvNets à portes
Résumé

Dans la littérature récente, les systèmes de parole « end-to-end » font souvent référence à des modèles acoustiques basés sur les lettres, formés selon une approche séquence-à-séquence, soit par un modèle récurrent, soit par une approche d'apprentissage de sortie structurée (comme le CTC). Contrairement aux approches traditionnelles basées sur les phonèmes (ou les sénones), ces méthodes « end-to-end » réduisent la nécessité de modéliser la prononciation des mots et n'exigent pas une étape d'« alignement forcé » lors de l'entraînement. Néanmoins, les approches basées sur les phonèmes restent l'état de l'art dans les benchmarks classiques. Dans cet article, nous proposons un système de reconnaissance vocale basé sur les lettres, utilisant un modèle acoustique ConvNet. Les éléments clés du ConvNet sont les Unités Linéaires Gated (GLU) et un taux élevé de dropout. Le ConvNet est entraîné pour mapper des séquences audio à leurs transcriptions en lettres correspondantes, soit par une approche CTC classique, soit par une variante récente appelée ASG. Accompagné d'un décodeur simple lors de l'inférence, notre système atteint des performances comparables aux meilleurs systèmes existants basés sur les lettres sur WSJ (en termes de taux d'erreur de mots) et montre des performances quasi optimales sur LibriSpeech.