Command Palette

Search for a command to run...

DiffVox:声音区分效果模型

一、教程简介

Build

DiffVox 项目是由索尼 AI 、索尼集团与伦敦玛丽女王大学的研究团队于 2025 年 5 月联合发布。该模型的核心能力在于,它采用推理时优化的先进方法,并创新性地引入高斯先验约束,从而能够将一段原始人声干声,智能地转化为在听感上逼近目标参考、且在参数上符合专业混音标准的优质音频。 它是一个专注于人声音效风格迁移的先进模型,相关论文成果为「DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions」(已被 DAFx25 接收)和「Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior」(已被 WASPAA 2025 接收)。

本教程默认使用资源为单卡 RTX 5090,最低可用单卡 RTX 4090 启动使用。

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后,即可进行模型的使用

若显示「Bad Gateway」,这表示模型正在初始化,请等待 2-3 分钟后刷新页面。使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

相关参数说明

主控与预设

Rapid Audio

  • 作用:主控制面板,包含音频处理的核心功能和预设选择
  • 说明:这是整个效果处理链的入口,负责协调所有效果模块的工作

Dry/Wet Ratio

  • 作用:控制干声(原始声音)和湿声(处理后的声音)的混合比例
  • 说明
    • 0%:完全干声,只输出原始声音
    • 50%:干湿声平衡混合
    • 100%:完全湿声,只输出处理后的声音
  • 应用:用于控制效果处理的强度,避免过度处理

Output Audio

  • 作用:最终混合后的输出音频
  • 说明:经过所有效果处理和干湿混合后的完整结果

Dry Audio

  • 作用:未经任何效果处理的原始干声
  • 说明:保留了录音的原始特性,用于对比或后期处理

Wet Audio

  • 作用:经过所有效果处理后的湿声
  • 说明:包含均衡、压缩、延迟、混响等所有效果的声音

Select Preset(1~365)

  • 作用:预设效果库选择
  • 说明
    • 包含 365 种专业调校的效果预设
    • 涵盖各种音乐风格和声音特性
    • 可作为起点进行个性化调整

参数均衡器

Parametric EQ

  • 作用:精确的音色调节工具
  • 说明:通过多个滤波器对特定频段进行增强或衰减,塑造声音的频谱特性

High Pass(高通滤波器)

  • 作用:切除指定频率以下的低频成分
  • 应用
    • 去除呼吸声、风声等低频噪声
    • 减少浑浊感,增加清晰度
    • 典型设置:80-120 Hz

Low Shelf(低频搁架式均衡器)

  • 作用:整体提升或衰减所有低频
  • 应用
    • 增加声音的厚度和温暖感
    • 减少低频轰鸣声
    • 典型频率:100-250 Hz

Peak Filter(峰值滤波器)

  • 作用:针对特定频率点进行精确调节
  • 应用
    • 消除共振峰
    • 增强人声的临场感
    • 修正特定频段的音色问题

High Shelf(高频搁架式均衡器)

  • 作用:整体提升或衰减所有高频
  • 应用
    • 增加空气感和亮度
    • 减少刺耳的高频
    • 典型频率:8-12 kHz

Frequency

  • 作用:选择要处理的中心频率
  • 说明:决定滤波器作用的频点位置

Gain

  • 作用:控制频率的增强或衰减程度
  • 范围:-12 dB 到 +12 dB
  • 正值:增强该频率
  • 负值:衰减该频率

Q

  • 作用:控制受影响频率范围的宽窄
  • 说明
    • 高 Q 值:影响范围窄,针对性强
    • 低 Q 值:影响范围宽,效果平滑
  • 应用:窄 Q 用于精确修正,宽 Q 用于整体调节

压缩器和扩展器

Compressor and Expander

  • 作用:动态范围处理器
  • 功能:压缩器减小动态范围,扩展器增大动态范围

Threshold

  • 作用:设定压缩/扩展开始的电平阈值
  • 说明
    • 高于此电平的信号会被压缩
    • 低于此电平的信号会被扩展
  • 范围:-60 dB 到 0 dB

Comp.Ratio(压缩比)

  • 作用:控制压缩的强度
  • 说明
    • 2:1:轻度压缩
    • 4:1:中等压缩
    • 10:1:强压缩
    • ∞:1:限制器效果

Make up(增益补偿)

  • 作用:补偿压缩后的电平损失
  • 应用:使压缩后的音量与压缩前相当

Attack Time(启动时间)

  • 作用:控制压缩器开始工作的速度
  • 说明
    • 快启动:保留瞬态,增加冲击感
    • 慢启动:软化瞬态,声音更平滑
  • 范围:0.1-100 ms

Release Time(释放时间)

  • 作用:控制压缩器停止工作的速度
  • 说明
    • 快释放:恢复动态快,可能产生抽吸效应
    • 慢释放:恢复动态慢,效果更自然
  • 范围:50-1000 ms

Exp. Ratio(扩展比)

  • 作用:控制扩展的强度
  • 说明
    • 1:2:信号低于阈值时电平减半
    • 1:10:强扩展,有效降低噪声
  • 范围:0-1(实际为扩展比的倒数)

Exp. Threshold(扩展阈值)

  • 作用:设定扩展器开始工作的电平点
  • 说明:低于此阈值的信号会被进一步衰减

RMS Averaging coefficient

  • 作用:控制压缩器对信号响应的敏感度
  • 说明
    • 高值:对平均音量敏感,响应平滑
    • 低值:对瞬时峰值敏感,响应快速
  • 应用:根据音乐风格和需求调整响应特性

乒乓延迟

Ping-Pong Delay

  • 作用:立体声延迟效果
  • 特点:回声在左右声道之间交替跳动

Delay Time

  • 作用:控制回声的时间间隔
  • 范围:100-1000 ms
  • 应用
    • 短延迟:增加空间感和厚度
    • 长延迟:创造明显的回声效果

Feedback

  • 作用:控制回声的重复次数
  • 说明
    • 低反馈:少量回声
    • 高反馈:多次重复,可能产生自激
  • 范围:0-1

Gain

  • 作用:控制延迟效果的音量
  • 范围:-80 dB 到 0 dB

Odd/Even Delay Pan

  • 作用:分别控制奇数和偶数次回声的声像位置
  • 说明
    • -100:完全左声道
    • 0:居中
    • 100:完全右声道
  • 应用:创造立体的空间移动效果

Low Pass Frequency

  • 作用:对延迟回声进行低频滤波
  • 应用
    • 模拟自然衰减的高频损失
    • 创造温暖、不刺耳的回声

Reverb Send

  • 作用:控制延迟信号发送到混响的量
  • 应用:为延迟回声增加空间感,创造更自然的效果

FDN 混响

FDN Reverb

  • 作用:高质量数字混响效果
  • 特点:基于反馈延迟网络,提供自然的空间模拟

Tone Correction(PEQ)

  • 作用:混响效果内部的均衡器
  • 功能
    • 调节混响尾音的频率特性
    • 控制混响的明亮度或温暖度
    • 避免混响与主声冲突

Decay Time

  • 作用:控制混响的衰减时间
  • 说明
    • 短衰减:小房间效果
    • 长衰减:大厅或教堂效果
  • 范围:0-9 秒
  • 应用:根据空间大小需求调整混响持续时间

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果 ↓

引用信息

本项目引用信息如下:

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}
@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DiffVox:声音区分效果模型 | 教程 | HyperAI超神经