il y a 3 mois

Résumé

Le parler dialectal incarne une riche diversité culturelle et linguistique, mais la mise en œuvre de systèmes de synthèse vocale texte-parole (TTS) pour les dialectes reste un défi en raison du manque de données, des orthographes incohérentes et des variations phonétiques complexes. Pour relever ces défis, nous proposons DiaMoE-TTS, un cadre unifié basé sur l'Alphabet phonétique international (IPA) qui standardise les représentations phonétiques et résout les ambigüités entre graphèmes et phonèmes. Conçu sur la base de l'architecture F5-TTS, ce système intègre un Mélange d'Experts (MoE) sensible aux dialectes afin de modéliser les différences phonologiques, et utilise une adaptation à faible coût en paramètres via des adaptateurs de rang faible (LoRA) et des adaptateurs conditionnels, permettant un transfert rapide vers de nouveaux dialectes. Contrairement aux approches dépendantes de ressources à grande échelle ou propriétaires, DiaMoE-TTS permet une synthèse évolutif et pilotée par des données ouvertes. Les expériences montrent une génération de parole naturelle et expressive, atteignant des performances en « zéro-shot » sur des dialectes inconnus et des domaines spécialisés tels que l'opéra de Pékin, avec seulement quelques heures de données.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

DiaMoE-TTS : un cadre unifié de synthèse vocale de dialectes basé sur l'ALI avec mélange d'experts et adaptation zéro-shot à faible consommation de paramètres

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DiaMoE-TTS : un cadre unifié de synthèse vocale de dialectes basé sur l'ALI avec mélange d'experts et adaptation zéro-shot à faible consommation de paramètres

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DiaMoE-TTS : un cadre unifié de synthèse vocale de dialectes basé sur l'ALI avec mélange d'experts et adaptation zéro-shot à faible consommation de paramètres

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters