谷歌推出Magenta RealTime:首款支持实时互动的开源AI音乐生成模型
谷歌的研究团队Magenta发布了一款名为Magenta RealTime(Magenta RT)的开放权重实时音乐生成模型,为生成音频带来了前所未有的互动性。这款模型在Apache 2.0许可下公开发布,代码可以在GitHub和Hugging Face平台上获得。Magenta RT不仅能够实时生成音乐,还可以根据用户提供的动态风格提示即时调整音乐风格,填补了生成模型与人类参与创作之间的空白。 实时控制和现场互动是音乐创意的基础。之前Magenta项目的Piano Genie和DDSP强调了音乐表达控制和信号建模,而Magenta RT则进一步扩展到了全频谱音频合成。它通过即时反馈和音乐风格的动态演变,使得用户能够更灵活地创作音乐。 Magenta RT基于Transformer架构,使用离散音频令牌进行训练,这些令牌由神经音频编解码器产生,支持48 kHz立体声音质。其8亿参数的Transformer架构经过优化,可以实现在免费Colab TPU上实时生成音乐,即使在处理大规模数据集时也能保持高速度。Magenta RT采用了MusicLM的分阶段训练管道,并集成了一个名为MusicCoCa的新模块,能够实现实时的语义控制,涵盖音乐流派、乐器选择和风格演变。 Magenta RT的训练数据来自约19万小时的乐器库存音乐。这一庞大且多样的数据集确保了模型在不同音乐风格下的广泛泛化能力和平滑适应能力。训练数据通过层次编解码器进行分词,每个2秒的音频块不仅仅依赖于用户的提示,还结合了前10秒音频的上下文,这有助于实现连贯和平滑的音乐演进。 尽管Magenta RT拥有8亿参数,但其生成速度达到每2秒音频只需要1.25秒,实现了接近实时的数据生成(RTF约为0.625)。推断过程可以在免费的谷歌Colab TPU上运行。其生成过程是分段进行的,每个2秒的音频片段都通过前向流水线合成交叉窗口来确保连续性和一致性,进一步通过模型编译优化(XLA)、缓存和硬件调度减少延迟。 Magenta RT设计用于集成到各种实时交互应用中,如音乐制作软件、直播平台和音频编辑工具。谷歌暗示未来可能会支持设备端推断和个人微调,帮助创作者将模型适应自己独特的风格。此外,Magenta RT与谷歌DeepMind的MusicFX(DJ模式)和Lyria的RealTime API兼容,但在开源和自托管方面具有独特优势。与其他潜扩散模型(如Riffusion)和自回归解码器(如Jukebox)相比,Magenta RT专注于低延迟的编解码器令牌预测,使其更适合现场创作和DJ表演。 Magenta RealTime是实时生成音频领域的一个重要突破,通过融合高保真合成与动态用户控制,为AI辅助音乐创作打开了新的大门。其架构在规模与速度之间找到了平衡,开放许可则确保了广泛的可访问性和社区贡献。对于研究者、开发者和音乐家而言,Magenta RT标志着响应式、协作性AI音乐系统的重要一步。 业内人士认为,Magenta RT的发布是AI音乐生成领域的一大进步,特别是在实时互动性方面的突破。这款模型不仅在技术上有所创新,还因其开源特性促进了社区的发展和合作。谷歌Magenta团队在音视频处理领域的持续探索和技术积累,使得Magenta RT在同类型产品中脱颖而出。