11 天前
Grad-TTS:一种用于文本到语音的扩散概率模型
Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov

摘要
近期,去噪扩散概率模型(denoising diffusion probabilistic models)与生成得分匹配(generative score matching)在建模复杂数据分布方面展现出巨大潜力。同时,随机微积分为这些技术提供了统一的理论视角,使得灵活的推理方案成为可能。本文提出一种新型文本到语音(text-to-speech, TTS)模型——Grad-TTS,其采用基于得分的解码器,通过逐步将编码器预测的噪声进行转化,并借助单调对齐搜索(Monotonic Alignment Search)与文本输入对齐,生成梅尔频谱图(mel-spectrograms)。基于随机微分方程的框架使我们能够将传统的扩散概率模型推广至从具有不同参数的噪声中重构数据的情形,并通过显式控制语音质量与推理速度之间的权衡,实现灵活的重建过程。主观人类评估结果表明,Grad-TTS在平均意见得分(Mean Opinion Score, MOS)方面与当前最先进的文本到语音方法具有竞争力。相关代码即将开源发布。