Unités récurrentes à portes légères pour la reconnaissance de la parole

Un domaine qui a directement bénéficié des récentes avancées en apprentissage profond est la Reconnaissance Automatique de la Parole (RAP). Malgré les grands progrès réalisés au cours des dernières décennies, une interaction vocale naturelle et robuste entre l'homme et la machine semble encore hors de portée, en particulier dans des environnements difficiles caractérisés par un bruit important et une réverbération. Pour améliorer la robustesse, les reconnaissants vocaux modernes utilisent souvent des modèles acoustiques basés sur des Réseaux Neuronaux Récurrents (RNR), capables d'exploiter naturellement des contextes temporels étendus et des modulations à long terme de la parole. Il est donc d'un grand intérêt de poursuivre l'étude de techniques appropriées pour améliorer l'efficacité des RNR dans le traitement des signaux vocaux.Dans cet article, nous réexaminons l'un des modèles de RNR les plus populaires, les Unités Récurrentes à Portes (URP) ou Gated Recurrent Units (GRUs), et proposons une architecture simplifiée qui s'est avérée très efficace pour la RAP. La contribution de ce travail est double : premièrement, nous analysons le rôle joué par la porte de réinitialisation, montrant qu'une redondance significative avec la porte de mise à jour se produit. En conséquence, nous proposons d'éliminer cette porte de réinitialisation du design des URP, conduisant à un modèle mono-porte plus efficace et compact. Deuxièmement, nous proposons de remplacer les fonctions d'activation tangente hyperbolique par des fonctions d'activation ReLU. Cette variation s'accorde bien avec la normalisation par lots et pourrait aider le modèle à apprendre les dépendances à long terme sans problèmes numériques.Les résultats montrent que l'architecture proposée, appelée Light URP (Li-URP), non seulement réduit le temps d'entraînement par époque de plus de 30 % par rapport à un URP standard, mais améliore également de manière constante la précision de reconnaissance sur différentes tâches, caractéristiques d'entrée, conditions bruyantes ainsi que selon différents paradigmes de RAP, allant des reconnaissants vocaux DNN-HMM standards aux modèles CTC bout-en-bout.