HyperAIHyperAI

Command Palette

Search for a command to run...

Rapport technique Marco-Voice

Fengping Tian Chenyang Lyu Xuanfan Ni Haoqin Sun Qingjuan Li Zhiqiang Qian et al

Résumé

Ce papier présente un système multifonctionnel de synthèse vocale intégrant la synthèse vocale par clonage vocal et la synthèse vocale contrôlée par émotion dans un cadre unifié. L'objectif de ce travail est de relever des défis persistants en matière de génération de parole hautement expressive, contrôlable et naturelle, tout en préservant fidèlement l'identité du locuteur dans divers contextes linguistiques et émotionnels. Notre approche introduit un mécanisme efficace de désenchevêtrement entre locuteur et émotion, basé sur un apprentissage contrastif intra-batch, permettant une manipulation indépendante de l'identité vocale et du style émotionnel, ainsi qu'une méthode d'intégration d'encodages émotionnels par rotation pour un contrôle émotionnel fluide. Pour soutenir une formation et une évaluation complètes, nous avons construit CSEMOTIONS, un jeu de données de parole émotionnelle de haute qualité, comprenant 10 heures de parole en mandarin provenant de six locuteurs professionnels répartis dans sept catégories émotionnelles. Des expérimentations étendues démontrent que notre système, Marco-Voice, atteint des améliorations significatives sur les métriques objectives et subjectives. Des évaluations et analyses complètes ont été menées ; les résultats montrent que Marco-Voice obtient des performances compétitives en termes de clarté vocale et de richesse émotionnelle, marquant une avancée notable dans le domaine de la synthèse vocale neuronale expressive. Notre code source et le jeu de données sont disponibles publiquement à l’adresse suivante : [lien URL] et [lien URL], respectivement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Rapport technique Marco-Voice | Articles | HyperAI