WenetSpeech-Chuan : un corpus à grande échelle de dialecte sichuanais avec une annotation riche pour le traitement du discours dialectal
WenetSpeech-Chuan : un corpus à grande échelle de dialecte sichuanais avec une annotation riche pour le traitement du discours dialectal

Résumé
La rareté de données à grande échelle et open source pour les dialectes entrave sévèrement les progrès en technologie de la parole, un défi particulièrement aigu pour les dialectes chinois du Sichuan, largement parlés. Pour combler cette lacune critique, nous introduisons WenetSpeech-Chuan, un corpus de 10 000 heures, richement annoté, construit grâce à notre nouveau pipeline Chuan-Pipeline, un cadre complet de traitement de données dédié à la parole dialectale. Afin de faciliter une évaluation rigoureuse et de démontrer l'efficacité du corpus, nous mettons également à disposition des benchmarks de reconnaissance automatique de la parole (ASR) et de synthèse de la parole (TTS), intitulés WenetSpeech-Chuan-Eval, basés sur des transcriptions vérifiées manuellement. Des expérimentations montrent que les modèles entraînés sur WenetSpeech-Chuan atteignent des performances de pointe parmi les systèmes open source, et des résultats comparables à ceux des services commerciaux. En tant que plus grand corpus open source dédié aux dialectes du Sichuan, WenetSpeech-Chuan ne réduit pas seulement les barrières à la recherche en traitement de la parole dialectale, mais joue également un rôle essentiel dans la promotion de l’équité en intelligence artificielle et dans la réduction des biais présents dans les technologies vocales. Le corpus, les benchmarks, les modèles et les documents de référence sont accessibles publiquement sur notre page de projet.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.