Command Palette
Search for a command to run...
连续音频语言模型
连续音频语言模型
Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez
摘要
音频语言模型(Audio Language Models, ALM)通过将音频表示为离散标记的序列,已成为语音与音乐生成领域的主流范式。然而,与可逆的文本标记不同,音频标记是通过比特率有限的有损编码器提取的。因此,提升音频质量需要生成更多标记,这在保真度与计算成本之间形成了权衡。为解决这一问题,我们提出连续音频语言模型(Continuous Audio Language Models, CALM)。该模型采用大型Transformer主干网络,在每个时间步生成上下文嵌入。随后,这些序列化信息作为条件,驱动一个MLP网络,通过一致性建模生成音频变分自编码器(VAE)的下一个连续音频帧。由于避免了有损压缩,CALM在更低的计算成本下实现了比其离散版本更高的音频质量。在语音与音乐生成任务上的实验表明,CALM在效率与保真度方面均优于当前最先进的离散音频语言模型,显著推动了轻量化、高质量音频生成的发展。相关音频样本可访问此网址:http://[链接]。最后,我们开源发布Pocket TTS——一个参数量为1亿的文本到语音模型,可在笔记本电脑的CPU上实现超实时运行:http://[链接]。