Stability AI 和 Arm 推出小巧高效文本转音频模型,智能手机 7 秒生成 11 秒立体声
Stability AI 和 Arm 共同发布了一款适用于智能手机的小型语音生成模型,名为 Stable Audio Open Small。该模型能够快速生成长达 11 秒的立体声音频片段,平均用时约为 7 秒。 这款新模型基于加州大学伯克利分校和其他研究人员开发的“对抗相对对比”(ARC)技术。与高端硬件如英伟达 H100 GPU 上只需 75 毫秒即可生成 44 kHz 立体声音频的速度相比,虽然在手机上的生成时间稍长,但仍然相当出色。去年,最初的 Stable Audio Open 作为免费开源模型推出,拥有 11 亿参数。而这次发布的小型版本只有 3.41 亿参数,极大地降低了运行难度,使其在移动设备上也能顺畅运行。 为了使 Stable Audio Open Small 能够在智能手机上运行,研发团队对其架构进行了彻底的改造。新模型由三个组件构成:一个自动编码器用于压缩音频数据;一个嵌入模块负责解析文本提示;一个扩散模型则生成最终的音频。这些改进不仅减少了内存使用量——从原来的 6.5 GB 减至现在的 3.6 GB,还使得首次在移动设备上运行成为可能。实验中,研究人员选择了 2024 年末发布的 Vivo X200 Pro 手机,该手机配备了 12 GB 内存和联发科 Dimensity 9400 芯片,成功运行了这一模型。 根据 Stability AI 的说法,Stable Audio Open Small 在生成音效和现场录音方面表现优秀,但在音乐特别是歌唱声音方面仍存在困难。目前,该模型主要支持英语提示语。训练数据来自拥有近 47.2 万个音频片段的 Freesound 数据库,所有素材均在 CC0、CC-BY 或 CC-Sampling+ 许可下使用,以免版权纠纷。团队通过一系列自动化检查过滤了训练数据,确保符合相关许可要求。 用户可以在 GitHub 上找到该软件的开源代码,模型权重则可通过 Hugging Face 获得。商业用途需遵守单独的条款,而开源使用则遵循 Stability AI 社区许可协议。 业内人士对此发表了一些看法。许多专家认为,Stability AI 和 Arm 的这次合作标志着语音生成技术的一次重大进步,特别是在移动设备应用领域的扩展。此举不仅促进了技术的普及,也为开发者提供了更多灵活的工具选项。同时,Stability AI 作为一家致力于开发高性能 AI 模型的公司,此次发布再次显示了其在开源技术和实时应用领域的领先地位。