HyperAIHyperAI

Command Palette

Search for a command to run...

SpecAugment : Une Méthode Simple d'Augmentation de Données pour la Reconnaissance Automatique de la Parole

Daniel S. Park* William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph Ekin D. Cubuk Quoc V. Le

Résumé

Nous présentons SpecAugment, une méthode simple d'augmentation de données pour la reconnaissance vocale. SpecAugment est appliquée directement aux entrées de caractéristiques d'un réseau neuronal (c'est-à-dire les coefficients de la banque de filtres). La politique d'augmentation consiste à déformer les caractéristiques, masquer des blocs de canaux fréquentiels et masquer des blocs d'étapes temporelles. Nous appliquons SpecAugment sur des réseaux Listen, Attend and Spell pour des tâches de reconnaissance vocale bout-à-bout. Nous obtenons des performances de pointe sur les tâches LibriSpeech 960h et Swichboard 300h, surpassant toutes les œuvres précédentes. Sur LibriSpeech, nous atteignons un taux d'erreur de reconnaissance (WER) de 6,8% sur le test-other sans l'utilisation d'un modèle linguistique, et un WER de 5,8% avec une fusion superficielle d'un modèle linguistique. Cela se compare au système hybride précédent de pointe qui avait un WER de 7,5%. Pour Swichboard, nous obtenons des résultats de 7,2%/14,6% sur la partie Swichboard/CallHome du jeu de tests Hub5'00 sans l'utilisation d'un modèle linguistique, et des résultats de 6,8%/14,1% avec une fusion superficielle, ce qui se compare au système hybride précédent de pointe qui avait un WER de 8,3%/17,3%.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SpecAugment : Une Méthode Simple d'Augmentation de Données pour la Reconnaissance Automatique de la Parole | Articles | HyperAI