Réseaux neuronaux récurrents segmentaux pour la reconnaissance vocale de bout en bout

Nous étudions le réseau neuronal récurrent segmental pour la modélisation acoustique de bout en bout. Ce modèle associe un champ aléatoire conditionnel segmental (CRF) à un réseau neuronal récurrent (RNN) utilisé pour l'extraction des caractéristiques. Contrairement à la plupart des modèles acoustiques basés sur les CRF précédemment proposés, il ne dépend pas d'un système externe pour fournir des caractéristiques ou des limites de segmentation. Au lieu de cela, ce modèle marginalise toutes les segmentations possibles, et les caractéristiques sont extraites d'un RNN formé conjointement avec le CRF segmental. En substance, ce modèle est autonome et peut être formé de bout en bout. Dans cet article, nous abordons les questions pratiques liées à la formation et au décodage, ainsi que la méthode pour accélérer la formation dans le contexte de la reconnaissance vocale. Nous avons mené des expériences sur l'ensemble de données TIMIT. Nous avons obtenu un taux d'erreur phonétique (PER) de 17,3 % lors du premier décodage --- le meilleur résultat rapporté utilisant des CRF, malgré le fait que nous n'ayons utilisé qu'un CRF d'ordre zéro et sans recourir à aucun modèle linguistique.