Command Palette
Search for a command to run...
DiffVox:声音区分效果模型
一、教程简介

DiffVox 项目是由索尼 AI 、索尼集团与伦敦玛丽女王大学的研究团队于 2025 年 5 月联合发布。该模型的核心能力在于,它采用推理时优化的先进方法,并创新性地引入高斯先验约束,从而能够将一段原始人声干声,智能地转化为在听感上逼近目标参考、且在参数上符合专业混音标准的优质音频。 它是一个专注于人声音效风格迁移的先进模型,相关论文成果为「DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions」(已被 DAFx25 接收)和「Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior」(已被 WASPAA 2025 接收)。
本教程默认使用资源为单卡 RTX 5090,最低可用单卡 RTX 4090 启动使用。
二、项目示例

三、运行步骤
1. 启动容器

2. 进入网页后,即可进行模型的使用
若显示「Bad Gateway」,这表示模型正在初始化,请等待 2-3 分钟后刷新页面。使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

相关参数说明
主控与预设
Rapid Audio
- 作用:主控制面板,包含音频处理的核心功能和预设选择
- 说明:这是整个效果处理链的入口,负责协调所有效果模块的工作
Dry/Wet Ratio
- 作用:控制干声(原始声音)和湿声(处理后的声音)的混合比例
- 说明:
- 0%:完全干声,只输出原始声音
- 50%:干湿声平衡混合
- 100%:完全湿声,只输出处理后的声音
- 应用:用于控制效果处理的强度,避免过度处理
Output Audio
- 作用:最终混合后的输出音频
- 说明:经过所有效果处理和干湿混合后的完整结果
Dry Audio
- 作用:未经任何效果处理的原始干声
- 说明:保留了录音的原始特性,用于对比或后期处理
Wet Audio
- 作用:经过所有效果处理后的湿声
- 说明:包含均衡、压缩、延迟、混响等所有效果的声音
Select Preset(1~365)
- 作用:预设效果库选择
- 说明:
- 包含 365 种专业调校的效果预设
- 涵盖各种音乐风格和声音特性
- 可作为起点进行个性化调整
参数均衡器
Parametric EQ
- 作用:精确的音色调节工具
- 说明:通过多个滤波器对特定频段进行增强或衰减,塑造声音的频谱特性
High Pass(高通滤波器)
- 作用:切除指定频率以下的低频成分
- 应用:
- 去除呼吸声、风声等低频噪声
- 减少浑浊感,增加清晰度
- 典型设置:80-120 Hz
Low Shelf(低频搁架式均衡器)
- 作用:整体提升或衰减所有低频
- 应用:
- 增加声音的厚度和温暖感
- 减少低频轰鸣声
- 典型频率:100-250 Hz
Peak Filter(峰值滤波器)
- 作用:针对特定频率点进行精确调节
- 应用:
- 消除共振峰
- 增强人声的临场感
- 修正特定频段的音色问题
High Shelf(高频搁架式均衡器)
- 作用:整体提升或衰减所有高频
- 应用:
- 增加空气感和亮度
- 减少刺耳的高频
- 典型频率:8-12 kHz
Frequency
- 作用:选择要处理的中心频率
- 说明:决定滤波器作用的频点位置
Gain
- 作用:控制频率的增强或衰减程度
- 范围:-12 dB 到 +12 dB
- 正值:增强该频率
- 负值:衰减该频率
Q
- 作用:控制受影响频率范围的宽窄
- 说明:
- 高 Q 值:影响范围窄,针对性强
- 低 Q 值:影响范围宽,效果平滑
- 应用:窄 Q 用于精确修正,宽 Q 用于整体调节
压缩器和扩展器
Compressor and Expander
- 作用:动态范围处理器
- 功能:压缩器减小动态范围,扩展器增大动态范围
Threshold
- 作用:设定压缩/扩展开始的电平阈值
- 说明:
- 高于此电平的信号会被压缩
- 低于此电平的信号会被扩展
- 范围:-60 dB 到 0 dB
Comp.Ratio(压缩比)
- 作用:控制压缩的强度
- 说明:
- 2:1:轻度压缩
- 4:1:中等压缩
- 10:1:强压缩
- ∞:1:限制器效果
Make up(增益补偿)
- 作用:补偿压缩后的电平损失
- 应用:使压缩后的音量与压缩前相当
Attack Time(启动时间)
- 作用:控制压缩器开始工作的速度
- 说明:
- 快启动:保留瞬态,增加冲击感
- 慢启动:软化瞬态,声音更平滑
- 范围:0.1-100 ms
Release Time(释放时间)
- 作用:控制压缩器停止工作的速度
- 说明:
- 快释放:恢复动态快,可能产生抽吸效应
- 慢释放:恢复动态慢,效果更自然
- 范围:50-1000 ms
Exp. Ratio(扩展比)
- 作用:控制扩展的强度
- 说明:
- 1:2:信号低于阈值时电平减半
- 1:10:强扩展,有效降低噪声
- 范围:0-1(实际为扩展比的倒数)
Exp. Threshold(扩展阈值)
- 作用:设定扩展器开始工作的电平点
- 说明:低于此阈值的信号会被进一步衰减
RMS Averaging coefficient
- 作用:控制压缩器对信号响应的敏感度
- 说明:
- 高值:对平均音量敏感,响应平滑
- 低值:对瞬时峰值敏感,响应快速
- 应用:根据音乐风格和需求调整响应特性
乒乓延迟
Ping-Pong Delay
- 作用:立体声延迟效果
- 特点:回声在左右声道之间交替跳动
Delay Time
- 作用:控制回声的时间间隔
- 范围:100-1000 ms
- 应用:
- 短延迟:增加空间感和厚度
- 长延迟:创造明显的回声效果
Feedback
- 作用:控制回声的重复次数
- 说明:
- 低反馈:少量回声
- 高反馈:多次重复,可能产生自激
- 范围:0-1
Gain
- 作用:控制延迟效果的音量
- 范围:-80 dB 到 0 dB
Odd/Even Delay Pan
- 作用:分别控制奇数和偶数次回声的声像位置
- 说明:
- -100:完全左声道
- 0:居中
- 100:完全右声道
- 应用:创造立体的空间移动效果
Low Pass Frequency
- 作用:对延迟回声进行低频滤波
- 应用:
- 模拟自然衰减的高频损失
- 创造温暖、不刺耳的回声
Reverb Send
- 作用:控制延迟信号发送到混响的量
- 应用:为延迟回声增加空间感,创造更自然的效果
FDN 混响
FDN Reverb
- 作用:高质量数字混响效果
- 特点:基于反馈延迟网络,提供自然的空间模拟
Tone Correction(PEQ)
- 作用:混响效果内部的均衡器
- 功能:
- 调节混响尾音的频率特性
- 控制混响的明亮度或温暖度
- 避免混响与主声冲突
Decay Time
- 作用:控制混响的衰减时间
- 说明:
- 短衰减:小房间效果
- 长衰减:大厅或教堂效果
- 范围:0-9 秒
- 应用:根据空间大小需求调整混响持续时间
四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果 ↓

引用信息
本项目引用信息如下:
@inproceedings{ycy2025diffvox,
title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions},
author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
year={2025},
booktitle={Proc. DAFx},
}
@inproceedings{ycy2025ito,
title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior},
author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
year={2025},
booktitle={Proc. WASPAA},
}