HyperAIHyperAI

Command Palette

Search for a command to run...

连续音频语言模型

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

摘要

音频语言模型(Audio Language Models, ALM)通过将音频表示为离散标记的序列,已成为语音与音乐生成领域的主流范式。然而,与可逆的文本标记不同,音频标记是通过比特率有限的有损编码器提取的。因此,提升音频质量需要生成更多标记,这在保真度与计算成本之间形成了权衡。为解决这一问题,我们提出连续音频语言模型(Continuous Audio Language Models, CALM)。该模型采用大型Transformer主干网络,在每个时间步生成上下文嵌入。随后,这些序列化信息作为条件,驱动一个MLP网络,通过一致性建模生成音频变分自编码器(VAE)的下一个连续音频帧。由于避免了有损压缩,CALM在更低的计算成本下实现了比其离散版本更高的音频质量。在语音与音乐生成任务上的实验表明,CALM在效率与保真度方面均优于当前最先进的离散音频语言模型,显著推动了轻量化、高质量音频生成的发展。相关音频样本可访问此网址:http://[链接]。最后,我们开源发布Pocket TTS——一个参数量为1亿的文本到语音模型,可在笔记本电脑的CPU上实现超实时运行:http://[链接]。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供