Google、リアルタイムAI音楽生成モデル「Magenta RealTime」をオープンソースで公開
GoogleのMagentaチームが、リアルタイムAI音楽生成モデル「Magenta RealTime (Magenta RT)」を公開しました。このオープンウェイトモデルは、Apache 2.0ライセンスのもとGitHubとHugging Faceで利用可能で、生成音楽モデルとしては初めて真正なリアルタイム処理をサポートしています。 模型の背景と目的 音楽の創作ではリアルタイム制御と即座の反応が重要です。従来のMagentaプロジェクトでは、Piano GenieやDDSPを通じて表現力の制御や信号モデリングに重きを置いていましたが、Magenta RTはこれらをさらに発展させ、フルスペクトラムオーディオ合成を実現しています。これにより、人間中心の作曲プロセスと生成モデルの間に存在していたギャップが埋まり、瞬時のフィードバックや動的音楽進化が可能になりました。 模型の技術的概述 Magenta RTは、ディスクリートオーディオトークンで訓練されたTransformerベースの言語モデルです。这些令牌通过一个神经音频编解码器生成,支持48 kHz的立体声音质。模型采用了优化过的8亿参数Transformer架构,能够在免费版的Google Colab TPU上实现高效的实时生成。 模型架构基于MusicLM的多阶段训练管道,并引入了新的联合音乐文本嵌入模块MusicCoCa,这一模块融合了MuLan和CoCa的技术。这使得模型能够在实时生成过程中,对音乐的风格、乐器和流变进行语义上有意义的控制。 教育データと訓練過程 Magenta RTは約19万時間のインストゥルメンタル・ストック音楽データ上で訓練されています。この大規模かつ多様なデータセットにより、幅広いジャンルの一貫性と音楽コンテクストでの滑らかな適応が保証されています。教育データは階層的なコーデックを用いてトークン化され、各2秒の音塊はユーザー指定のプロンプトだけでなく、直前の10秒のオーディオ上下文にも基づいて生成されます。これにより、一貫性と音楽の推移性が確保されます。 用户可以通过两种方式提供风格提示: 1. 文本输入:允许用户通过文字描述来控制音乐的风格和氛围。 2. 音频输入:用户可以上传音频片段,模型会根据该片段的风格和特点生成音乐。 这种方式的结合实现了实时风格转换和动态乐器混合,非常适合现场作曲和DJ表演等场景。 性能与推理 尽管模型规模达到了8亿参数,Magenta RT仍能在免费版Colab TPU上实现实时生成(RTF ≈ 0.625)。生成过程以2秒为单位切分,通过前向管道合成每个片段,并采用重叠窗口技术确保连续性和连贯性。通过模型编译优化(XLA)、缓存技术和硬件调度进一步降低了延迟。 应用与使用案例 Magenta RT旨在整合到各种音乐创作工具中: - DawPlug-ins:可用于数字音频工作站的插件,如Ableton Live或Logic Pro。 - Mobile Apps:适用于移动应用,使音乐家和DJ能够在现场制作互动音乐。 - Web Applications:可在网页应用上运行,为在线协作和直播提供支持。 - Interactive Installations:用于互动装置艺术,创造沉浸式的音乐体验。 谷歌暗示未来将支持设备上的推理和个性化微调,以适应创作者独特的风格签名。 总结 Magenta RealTime标志着实时生成音频领域的重要突破。通过结合高保真合成与动态用户控制,它为AI辅助音乐创作开辟了新的可能性。其架构在规模与速度之间找到了平衡,而开源许可则确保了广泛的可访问性和社区贡献。对于研究人员、开发者和音乐家来说,Magenta RT是朝着响应式、协作式AI音乐系统迈出的关键一步。 業界関係者から寄せられる評価では、「Magenta RTはリアルタイム音楽生成において革新的であり、その低遅延と高い互换性は、さまざまな場面での活用を可能にしています」とのコメントが聞かれています。Google Magentaチームは、音楽生成技術をオープンソースで提供することで、音楽家と研究者の間の협力を促進し、未来的な音楽制作手法の開発を加速させることを目指しています。 【公式リンク】 モデル: Hugging Face GitHubページ: GitHub コラボ笔记本: Colab Notebook 校正者注:原文は英語でしたが、日本語に翻訳し要約しました。誤訳や理解不足の部分がある場合はお気軽にお指摘ください。