3 天前
Marco-Voice 技术报告
Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, et al

摘要
本文提出了一种多功能语音合成系统,该系统在统一框架内集成了语音克隆与情感控制语音合成技术。本研究旨在解决长期存在的技术挑战,即实现高度富有表现力、可控制且自然的语音生成,同时在多样化的语言与情感语境下准确保留说话人身份。我们的方法引入了一种高效的说话人-情感解耦机制,结合批次内对比学习(in-batch contrastive learning),实现了对说话人身份与情感风格的独立操控;同时提出了一种旋转式情感嵌入融合方法,以实现平滑的情感控制。为支持全面的训练与评估,我们构建了CSEMOTIONS数据集——一个高质量的情感语音数据集,包含六位专业发音人录制的10小时普通话语音,覆盖七种情感类别。大量实验表明,所提出的系统Marco-Voice在客观与主观评价指标上均取得了显著提升。全面的评估与分析结果显示,Marco-Voice在语音清晰度与情感丰富性方面均表现出色,标志着在富有表现力的神经语音合成领域取得了重要进展。相关代码与数据集已分别公开发布于以下链接:[此处插入代码链接] 和 [此处插入数据集链接]。