WenetSpeech-Yue : un corpus parlé de cantonais à grande échelle avec annotation multidimensionnelle

Le développement de la compréhension et de la génération de la parole a été considérablement accéléré par la disponibilité de grandes bases de données de parole de haute qualité. Parmi celles-ci, la reconnaissance automatique de la parole (ASR) et la synthèse de la parole (TTS) sont considérées comme les tâches les plus établies et fondamentales. Toutefois, pour le cantonais (chinois yue), parlé par environ 84,9 millions de locuteurs natifs dans le monde, la faiblesse des ressources annotées a freiné les progrès et conduit à des performances sous-optimales en ASR et TTS. Pour relever ce défi, nous proposons WenetSpeech-Pipe, un pipeline intégré permettant de construire de grandes corpora de parole dotés d’annotations multidimensionnelles spécifiquement conçues pour la compréhension et la génération de la parole. Ce pipeline comprend six modules : collecte audio, annotation des attributs des locuteurs, annotation de la qualité de la parole, reconnaissance automatique de la parole, post-traitement du texte et vote sur les sorties du système de reconnaissance, offrant ainsi des annotations riches et de haute qualité. À partir de ce pipeline, nous publions WenetSpeech-Yue, le premier corpus de parole cantonaise à grande échelle doté d’annotations multidimensionnelles pour l’ASR et la TTS, couvrant 21 800 heures réparties sur 10 domaines, avec des annotations incluant la transcription ASR, le niveau de confiance du texte, l’identité du locuteur, l’âge, le sexe, les scores de qualité de la parole et d’autres métadonnées. Nous publions également WSYue-eval, une évaluation complète du cantonais comprenant deux composantes : WSYue-ASR-eval, un ensemble annoté manuellement destiné à évaluer l’ASR sur des énoncés courts et longs, le code-switching et des conditions acoustiques variées ; et WSYue-TTS-eval, constitué de sous-ensembles de base et de couverture pour des tests standard et de généralisation. Les résultats expérimentaux montrent que les modèles entraînés sur WenetSpeech-Yue atteignent des performances compétitives par rapport aux systèmes d’ASR et TTS cantonais les plus avancés (SOTA), y compris les modèles commerciaux et ceux basés sur les grands modèles linguistiques (LLM), mettant ainsi en évidence la valeur de notre corpus et de notre pipeline.