Rapport technique Marco-Voice

Ce papier présente un système multifonctionnel de synthèse vocale intégrant la synthèse vocale par clonage vocal et la synthèse vocale contrôlée par émotion dans un cadre unifié. L'objectif de ce travail est de relever des défis persistants en matière de génération de parole hautement expressive, contrôlable et naturelle, tout en préservant fidèlement l'identité du locuteur dans divers contextes linguistiques et émotionnels. Notre approche introduit un mécanisme efficace de désenchevêtrement entre locuteur et émotion, basé sur un apprentissage contrastif intra-batch, permettant une manipulation indépendante de l'identité vocale et du style émotionnel, ainsi qu'une méthode d'intégration d'encodages émotionnels par rotation pour un contrôle émotionnel fluide. Pour soutenir une formation et une évaluation complètes, nous avons construit CSEMOTIONS, un jeu de données de parole émotionnelle de haute qualité, comprenant 10 heures de parole en mandarin provenant de six locuteurs professionnels répartis dans sept catégories émotionnelles. Des expérimentations étendues démontrent que notre système, Marco-Voice, atteint des améliorations significatives sur les métriques objectives et subjectives. Des évaluations et analyses complètes ont été menées ; les résultats montrent que Marco-Voice obtient des performances compétitives en termes de clarté vocale et de richesse émotionnelle, marquant une avancée notable dans le domaine de la synthèse vocale neuronale expressive. Notre code source et le jeu de données sont disponibles publiquement à l’adresse suivante : [lien URL] et [lien URL], respectivement.