il y a 3 mois
QuartzNet : Reconnaissance automatique de la parole profonde basée sur des convolutions séparables 1D temps-canale
Samuel Kriman, Stanislav Beliaev, Boris Ginsburg, Jocelyn Huang, Oleksii Kuchaiev, Vitaly Lavrukhin, Ryan Leary, Jason Li, Yang Zhang

Résumé
Nous proposons un nouveau modèle acoustique neuronal end-to-end pour la reconnaissance automatique de la parole. Le modèle est composé de plusieurs blocs reliés par des connexions résiduelles. Chaque bloc comprend un ou plusieurs modules comportant des couches de convolution 1D séparables temps-canale, des normalisations par lot et des couches ReLU. Le réseau est entraîné à l’aide d’une perte CTC. Le modèle proposé atteint une précision proche de l’état de l’art sur les corpus LibriSpeech et Wall Street Journal, tout en possédant un nombre de paramètres inférieur à celui de tous les modèles concurrents. Nous démontrons également que ce modèle peut être efficacement ajusté finement sur de nouveaux jeux de données.