Command Palette
Search for a command to run...
DiaMoE-TTS : un cadre unifié de synthèse vocale de dialectes basé sur l'ALI avec mélange d'experts et adaptation zéro-shot à faible consommation de paramètres
Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

Résumé
Le parler dialectal incarne une riche diversité culturelle et linguistique, mais la mise en œuvre de systèmes de synthèse vocale texte-parole (TTS) pour les dialectes reste un défi en raison du manque de données, des orthographes incohérentes et des variations phonétiques complexes. Pour relever ces défis, nous proposons DiaMoE-TTS, un cadre unifié basé sur l'Alphabet phonétique international (IPA) qui standardise les représentations phonétiques et résout les ambigüités entre graphèmes et phonèmes. Conçu sur la base de l'architecture F5-TTS, ce système intègre un Mélange d'Experts (MoE) sensible aux dialectes afin de modéliser les différences phonologiques, et utilise une adaptation à faible coût en paramètres via des adaptateurs de rang faible (LoRA) et des adaptateurs conditionnels, permettant un transfert rapide vers de nouveaux dialectes. Contrairement aux approches dépendantes de ressources à grande échelle ou propriétaires, DiaMoE-TTS permet une synthèse évolutif et pilotée par des données ouvertes. Les expériences montrent une génération de parole naturelle et expressive, atteignant des performances en « zéro-shot » sur des dialectes inconnus et des domaines spécialisés tels que l'opéra de Pékin, avec seulement quelques heures de données.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.