HyperAIHyperAI
il y a 2 mois

Reconnaissance vocale pleinement convolutive

Neil Zeghidour; Qiantong Xu; Vitaliy Liptchinsky; Nicolas Usunier; Gabriel Synnaeve; Ronan Collobert
Reconnaissance vocale pleinement convolutive
Résumé

Les systèmes de reconnaissance vocale les plus avancés actuellement s'appuient sur des réseaux neuronaux récurrents pour la modélisation acoustique et/ou linguistique, et utilisent des pipelines d'extraction de caractéristiques pour extraire des banques de filtres mel ou des coefficients célestres. Dans cet article, nous présentons une approche alternative basée uniquement sur des réseaux neuronaux convolutifs, en tirant parti des récents progrès dans la modélisation acoustique à partir du signal sonore brut et dans la modélisation linguistique. Cette approche entièrement convolutive est formée de bout en bout pour prédire des caractères à partir du signal sonore brut, éliminant ainsi complètement l'étape d'extraction de caractéristiques. Un modèle linguistique externe convolutif est utilisé pour déchiffrer les mots. Sur le corpus du Wall Street Journal, notre modèle atteint le niveau actuel de l'état de l'art. Sur Librispeech, nous rapportons des performances d'état de l'art parmi les modèles formés de bout en bout, y compris Deep Speech 2 qui a été entraîné avec 12 fois plus de données acoustiques et considérablement plus de données linguistiques.

Reconnaissance vocale pleinement convolutive | Articles de recherche récents | HyperAI