8 个月前

Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons

摘要

从文本提示生成长格式44.1kHz立体声音频在计算上具有挑战性。此外，大多数先前的研究并未解决音乐和音效在其持续时间上的自然变化问题。我们的研究重点在于利用生成模型高效地从文本提示生成长格式、可变长度的44.1kHz立体声音乐和音效。Stable Audio基于潜在扩散（latent diffusion）技术，其潜在变量由一个全卷积变分自编码器定义。该模型通过文本提示和时间嵌入进行条件控制，从而实现对生成音乐和音效的内容及长度的精细调控。Stable Audio能够在A100 GPU上于8秒内渲染出长达95秒的44.1kHz立体声音信号。尽管其计算效率高且推理速度快，它在两个公开的文本到音乐和音频基准测试中仍表现优异，并且与最先进的模型不同，它可以生成具有结构和立体声效果的音乐。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons

摘要

从文本提示生成长格式44.1kHz立体声音频在计算上具有挑战性。此外，大多数先前的研究并未解决音乐和音效在其持续时间上的自然变化问题。我们的研究重点在于利用生成模型高效地从文本提示生成长格式、可变长度的44.1kHz立体声音乐和音效。Stable Audio基于潜在扩散（latent diffusion）技术，其潜在变量由一个全卷积变分自编码器定义。该模型通过文本提示和时间嵌入进行条件控制，从而实现对生成音乐和音效的内容及长度的精细调控。Stable Audio能够在A100 GPU上于8秒内渲染出长达95秒的44.1kHz立体声音信号。尽管其计算效率高且推理速度快，它在两个公开的文本到音乐和音频基准测试中仍表现优异，并且与最先进的模型不同，它可以生成具有结构和立体声效果的音乐。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供