
摘要
深度学习的最新进展已使单说话人语音合成达到人类水平的性能。然而,当将这些系统推广至多说话人模型时,尤其是在面对未见过的说话人和未见过的录音质量条件下,语音质量仍存在明显局限。例如,传统的神经声码器通常针对训练阶段的特定说话人进行优化,因而对未见说话人的泛化能力较差。为此,本文提出一种WaveRNN的改进版本,称为说话人条件WaveRNN(Speaker Conditional WaveRNN, SC-WaveRNN)。该方法旨在构建一个高效且具备强泛化能力的通用声码器,能够适应未见说话人及不同录音条件。与标准WaveRNN不同,SC-WaveRNN引入了说话人嵌入(speaker embeddings)作为额外的条件信息,以增强模型对不同说话人特征的建模能力。基于公开可用数据进行训练,SC-WaveRNN在主观与客观评价指标上均显著优于基线WaveRNN。在平均意见得分(MOS)方面,对于已见说话人与已见录音条件,SC-WaveRNN性能提升约23%;而对于未见说话人与未见录音条件,提升幅度高达95%。此外,我们进一步拓展该工作,实现了一种类似于零样本说话人迁移(zero-shot speaker adaptation)的多说话人文本到语音(TTS)合成系统。在性能表现上,该系统在已见说话人场景下,相较基线TTS系统获得60%的偏好率提升(对比基线15.5%);在未见说话人场景下,偏好率提升达60.9%(对比基线32.6%),充分验证了所提方法在跨说话人泛化方面的优越性。