Stability Audio 3.0 发布:最长 6 分钟专业级音乐,中小模型开放权重
Stable Diffusion 背后的公司 Stability AI 今日发布全新音频模型家族 Stable Audio 3.0,共四个模型:small SFX(4.59 亿参数)、small(4.59 亿参数)、medium(14 亿参数)和 large(27 亿参数)。两个小模型适合端侧设备,可生成长达 2 分钟的音频与音乐。 medium 和 large 模型则能生成完整的 6 分 20 秒音乐作品,并能保持音乐结构和旋律调性——时长为 2024 年发布的 Stable Audio 2.0 的两倍以上。 Stability AI 将 small SFX、small 和 medium 模型以开放权重发布,供任何人使用和修改。相比此前仅支持 47 秒生成的 Stable Audio Open,新一代模型在开放版本上实现了大幅跃升。large 模型则仅通过 API 和自托管付费服务提供,年营收超 100 万美元的企业需获取企业授权。 当前音乐生成赛道竞争激烈,Google、ElevenLabs 等公司纷纷入局。但 Suno 和 Udio 的诉讼表明,数据授权与唱片公司合作可能成为这些服务长期生存的关键。Stability AI 去年已与华纳音乐集团和环球音乐集团签署协议,并表示最新音频模型基于完全授权的数据训练。 公司同时透露正在为专业音乐人开发新套件。前 Universal Audio 和 Fender 首席数字官 Ethan Kaplan 已加入 Stability,负责领导专业音乐产品线。
