HyperAI超神经

Stability AI 和 Arm 共同发布了一款适用于智能手机的小型语音生成模型，名为 Stable Audio Open Small。该模型能够快速生成长达 11 秒的立体声音频片段，平均用时约为 7 秒。这款新模型基于加州大学伯克利分校和其他研究人员开发的“对抗相对对比”（ARC）技术。与高端硬件如英伟达 H100 GPU 上只需 75 毫秒即可生成 44 kHz 立体声音频的速度相比，虽然在手机上的生成时间稍长，但仍然相当出色。去年，最初的 Stable Audio Open 作为免费开源模型推出，拥有 11 亿参数。而这次发布的小型版本只有 3.41 亿参数，极大地降低了运行难度，使其在移动设备上也能顺畅运行。为了使 Stable Audio Open Small 能够在智能手机上运行，研发团队对其架构进行了彻底的改造。新模型由三个组件构成：一个自动编码器用于压缩音频数据；一个嵌入模块负责解析文本提示；一个扩散模型则生成最终的音频。这些改进不仅减少了内存使用量——从原来的 6.5 GB 减至现在的 3.6 GB，还使得首次在移动设备上运行成为可能。实验中，研究人员选择了 2024 年末发布的 Vivo X200 Pro 手机，该手机配备了 12 GB 内存和联发科 Dimensity 9400 芯片，成功运行了这一模型。根据 Stability AI 的说法，Stable Audio Open Small 在生成音效和现场录音方面表现优秀，但在音乐特别是歌唱声音方面仍存在困难。目前，该模型主要支持英语提示语。训练数据来自拥有近 47.2 万个音频片段的 Freesound 数据库，所有素材均在 CC0、CC-BY 或 CC-Sampling+ 许可下使用，以免版权纠纷。团队通过一系列自动化检查过滤了训练数据，确保符合相关许可要求。用户可以在 GitHub 上找到该软件的开源代码，模型权重则可通过 Hugging Face 获得。商业用途需遵守单独的条款，而开源使用则遵循 Stability AI 社区许可协议。业内人士对此发表了一些看法。许多专家认为，Stability AI 和 Arm 的这次合作标志着语音生成技术的一次重大进步，特别是在移动设备应用领域的扩展。此举不仅促进了技术的普及，也为开发者提供了更多灵活的工具选项。同时，Stability AI 作为一家致力于开发高性能 AI 模型的公司，此次发布再次显示了其在开源技术和实时应用领域的领先地位。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

Stability AI 和 Arm 推出小巧高效文本转音频模型，智能手机 7 秒生成 11 秒立体声

相关链接

Command Palette

Stability AI 和 Arm 推出小巧高效文本转音频模型，智能手机 7 秒生成 11 秒立体声

相关链接

Command Palette

Stability AI 和 Arm 推出小巧高效文本转音频模型，智能手机 7 秒生成 11 秒立体声

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟