SpecAugment : Une Méthode Simple d'Augmentation de Données pour la Reconnaissance Automatique de la Parole

Nous présentons SpecAugment, une méthode simple d'augmentation de données pour la reconnaissance vocale. SpecAugment est appliquée directement aux entrées de caractéristiques d'un réseau neuronal (c'est-à-dire les coefficients de la banque de filtres). La politique d'augmentation consiste à déformer les caractéristiques, masquer des blocs de canaux fréquentiels et masquer des blocs d'étapes temporelles. Nous appliquons SpecAugment sur des réseaux Listen, Attend and Spell pour des tâches de reconnaissance vocale bout-à-bout. Nous obtenons des performances de pointe sur les tâches LibriSpeech 960h et Swichboard 300h, surpassant toutes les œuvres précédentes. Sur LibriSpeech, nous atteignons un taux d'erreur de reconnaissance (WER) de 6,8% sur le test-other sans l'utilisation d'un modèle linguistique, et un WER de 5,8% avec une fusion superficielle d'un modèle linguistique. Cela se compare au système hybride précédent de pointe qui avait un WER de 7,5%. Pour Swichboard, nous obtenons des résultats de 7,2%/14,6% sur la partie Swichboard/CallHome du jeu de tests Hub5'00 sans l'utilisation d'un modèle linguistique, et des résultats de 6,8%/14,1% avec une fusion superficielle, ce qui se compare au système hybride précédent de pointe qui avait un WER de 8,3%/17,3%.