12 天前
Diffsound:用于文本到声音生成的离散扩散模型
Dongchao Yang, Jianwei Yu, Helin Wang, Wen Wang, Chao Weng, Yuexian Zou, Dong Yu

摘要
生成人类所期望的声音效果是一个重要研究课题。然而,针对声音生成领域中与人类偏好相关的内容,相关研究仍十分有限。在本研究中,我们探讨了基于文本提示生成声音的方法,并提出了一种新颖的文本到声音生成框架。该框架由文本编码器、向量量化变分自编码器(VQ-VAE)、解码器以及声码器(vocoder)组成。首先,利用VQ-VAE辅助,解码器将文本编码器提取的文本特征转换为梅尔频谱图(mel-spectrogram);随后,通过声码器将生成的梅尔频谱图转化为波形信号。实验发现,解码器的设计对生成性能具有显著影响,因此本研究重点聚焦于设计高效的解码器。我们首先采用传统的自回归解码器(autoregressive decoder, AR decoder),该方法在以往的声音生成研究中已被证明是性能领先的方案。然而,AR解码器需按顺序逐个预测梅尔频谱图的token,这带来了单向性偏差(unidirectional bias)以及误差累积问题。此外,使用AR解码器时,声音生成时间与音频时长呈线性增长关系,导致生成效率较低。为克服上述缺陷,我们提出了一种基于离散扩散模型的非自回归解码器——Diffsound。该方法能够在一步内同时预测全部梅尔频谱图的token,并在后续步骤中对预测结果进行逐步优化,经过多步迭代后可获得更优的生成效果。实验结果表明,与传统AR解码器相比,Diffsound不仅在文本到声音生成质量上表现更优,且生成速度显著提升:主观感知评分(MOS)达到3.56,相较AR解码器的2.786有明显提升,且生成速度约为AR解码器的五倍。