WenetSpeech : Un corpus mandarin multidomaine de plus de 10 000 heures pour la reconnaissance vocale

Dans cet article, nous présentons WenetSpeech, un corpus multidomaine de mandarin comprenant plus de 10 000 heures de discours étiqueté de haute qualité, plus de 2 400 heures de discours faiblement étiqueté et environ 10 000 heures de discours non étiqueté, pour un total d'environ 22 400 heures. Les données ont été collectées à partir de YouTube et des podcasts, couvrant une variété de styles de parole, de scénarios, de domaines, de sujets et de conditions bruyantes. Une méthode basée sur la reconnaissance optique des caractères (OCR) est introduite pour générer les candidats de segmentation audio/texte à partir des légendes vidéo correspondantes pour les données YouTube, tandis qu'un système d'annotation automatique du discours (ASR) de haute qualité est utilisé pour générer les candidats d'appariement audio/texte pour les données des podcasts. Nous proposons ensuite une nouvelle approche de détection d'erreurs d'étiquetage en bout-à-bout afin de valider et filtrer davantage ces candidats. Nous fournissons également trois ensembles de test manuellement étiquetés et de haute qualité accompagnant WenetSpeech pour l'évaluation : Dev pour la validation croisée lors de l'entraînement, Test_Net, collecté à partir d'Internet pour le test correspondant, et Test_Meeting, enregistré à partir de réunions réelles pour un test non correspondant plus difficile. Des systèmes baselines entraînés avec WenetSpeech sont fournis pour trois outils populaires de reconnaissance vocale, à savoir Kaldi, ESPnet et WeNet, ainsi que les résultats de reconnaissance sur les trois ensembles de test qui servent également d'étalons. À notre connaissance, WenetSpeech est actuellement le plus grand corpus vocal ouvert source avec transcriptions dans la langue mandarine, ce qui profite aux recherches sur la reconnaissance vocale au niveau industriel.