HyperAIHyperAI
il y a 17 jours

SpeechStew : Mixez simplement toutes les données disponibles de reconnaissance vocale pour entraîner un seul réseau neuronal massif

William Chan, Daniel Park, Chris Lee, Yu Zhang, Quoc Le, Mohammad Norouzi
SpeechStew : Mixez simplement toutes les données disponibles de reconnaissance vocale pour entraîner un seul réseau neuronal massif
Résumé

Nous présentons SpeechStew, un modèle de reconnaissance vocale entraîné sur une combinaison de divers jeux de données publics de reconnaissance vocale : AMI, Broadcast News, Common Voice, LibriSpeech, Switchboard/Fisher, Tedlium et Wall Street Journal. SpeechStew combine simplement tous ces jeux de données sans aucune réévaluation particulière ni rééquilibrage des données. Ce modèle atteint des résultats de l’état de l’art (SoTA) ou proches de l’état de l’art sur diverses tâches, sans recourir à un modèle linguistique externe. Nos résultats incluent un taux d’erreur de mot (WER) de 9,0 % sur AMI-IHM, 4,7 % sur Switchboard, 8,3 % sur CallHome et 1,3 % sur WSJ, ce qui dépasse significativement les performances des travaux antérieurs utilisant des modèles linguistiques externes puissants. Nous démontrons également que SpeechStew apprend des représentations puissantes pour le transfert d’apprentissage. Nous fine-tunons SpeechStew sur un jeu de données à faible ressource et bruité, CHiME-6. Nous obtenons un WER de 38,9 % sans modèle linguistique, comparé à 38,6 % pour une base forte basée sur un HMM avec modèle linguistique.