1 个月前

摘要

音频语言模型（Audio Language Models, ALM）通过将音频表示为离散标记的序列，已成为语音与音乐生成领域的主流范式。然而，与可逆的文本标记不同，音频标记是通过比特率有限的有损编码器提取的。因此，提升音频质量需要生成更多标记，这在保真度与计算成本之间形成了权衡。为解决这一问题，我们提出连续音频语言模型（Continuous Audio Language Models, CALM）。该模型采用大型Transformer主干网络，在每个时间步生成上下文嵌入。随后，这些序列化信息作为条件，驱动一个MLP网络，通过一致性建模生成音频变分自编码器（VAE）的下一个连续音频帧。由于避免了有损压缩，CALM在更低的计算成本下实现了比其离散版本更高的音频质量。在语音与音乐生成任务上的实验表明，CALM在效率与保真度方面均优于当前最先进的离散音频语言模型，显著推动了轻量化、高质量音频生成的发展。相关音频样本可访问此网址：http://[链接]。最后，我们开源发布Pocket TTS——一个参数量为1亿的文本到语音模型，可在笔记本电脑的CPU上实现超实时运行：http://[链接]。

源 PDF 查看代码