一键部署 DiffRhythm-full

一、教程简介

DiffRhythm 是由西北工业大学音频语音与语言处理实验室 (ASLP@NPU) 和香港中文大学（深圳）联合开发的一款基于潜扩散模型 (Latent Diffusion) 的端到端音乐生成工具。它能够在短时间内生成长达 4 分 45 秒的完整歌曲，包含人声和伴奏。用户只需提供歌词和风格提示，DiffRhythm 就能自动生成与歌词匹配的旋律和伴奏，支持多语言输入。

DiffRhythm（中文：谛韵，Dì Yùn）是第一个能够创作完整歌曲的基于扩散的歌曲生成模型。该名称结合了「Diff」（参考其扩散架构）和「Rhythm」（强调其对音乐和歌曲创作的关注）。中文名称谛韵（Dì Yùn）在发音上与「DiffRhythm」相似，其中「谛」（专心聆听）象征着听觉感知，「韵」（旋律魅力）代表音乐性。