日期

3 个月前

大小

252.06 MB

标签

音频识别

许可证

MIT

GitHub

SonyResearch/diffvox

论文 URL

2504.14735

一、教程简介

DiffVox 项目是由索尼 AI 、索尼集团与伦敦玛丽女王大学的研究团队于 2025 年 5 月联合发布。该模型的核心能力在于，它采用推理时优化的先进方法，并创新性地引入高斯先验约束，从而能够将一段原始人声干声，智能地转化为在听感上逼近目标参考、且在参数上符合专业混音标准的优质音频。它是一个专注于人声音效风格迁移的先进模型，相关论文成果为 DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions（已被 DAFx25 接收）和 Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior（已被 WASPAA 2025 接收）。

本教程默认使用资源为单卡 RTX 5090，最低可用单卡 RTX 4090 启动使用。

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

若显示「Bad Gateway」，这表示模型正在初始化，请等待 2-3 分钟后刷新页面。使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

引用信息

本项目引用信息如下：

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}

@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

3 个月前

大小

252.06 MB

标签

音频识别

许可证

MIT

GitHub

SonyResearch/diffvox

论文 URL

2504.14735

一、教程简介

本教程默认使用资源为单卡 RTX 5090，最低可用单卡 RTX 4090 启动使用。

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

若显示「Bad Gateway」，这表示模型正在初始化，请等待 2-3 分钟后刷新页面。使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

引用信息

本项目引用信息如下：

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}

@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

Open-AutoGLM：手机端智能助理

2 个月前

Z-Image-Turbo：高效 6B 参数图像生成模型

2 个月前

vLLM+OpenWebUI 部署 VibeThinker-1.5B

3 个月前

Dia2-TTS：实时语音合成服务

2 个月前

LongCat-Image：双语文本驱动图像生成系统

2 个月前

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

2 个月前

腾讯混元 HunyuanVideo-Foley

1 个月前

kyutai-tts-1.6 b-en_fr 音频生成

1 个月前

SoulX-Podcast 面向多方言的播客级长文本语音生成

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

DiffVox：声音区分效果模型

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

相关参数说明

主控与预设

参数均衡器

压缩器和扩展器

乒乓延迟

FDN 混响

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DiffVox：声音区分效果模型

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

相关参数说明

主控与预设

参数均衡器

压缩器和扩展器

乒乓延迟

FDN 混响

引用信息

相关教程

Open-AutoGLM：手机端智能助理

Z-Image-Turbo：高效 6B 参数图像生成模型

vLLM+OpenWebUI 部署 VibeThinker-1.5B

Dia2-TTS：实时语音合成服务

LongCat-Image：双语文本驱动图像生成系统

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

腾讯混元 HunyuanVideo-Foley

kyutai-tts-1.6 b-en_fr 音频生成

SoulX-Podcast 面向多方言的播客级长文本语音生成

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DiffVox：声音区分效果模型

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

相关参数说明

主控与预设

参数均衡器

压缩器和扩展器

乒乓延迟

FDN 混响

引用信息

相关教程

Open-AutoGLM：手机端智能助理

Z-Image-Turbo：高效 6B 参数图像生成模型

vLLM+OpenWebUI 部署 VibeThinker-1.5B

Dia2-TTS：实时语音合成服务

LongCat-Image：双语文本驱动图像生成系统

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

腾讯混元 HunyuanVideo-Foley

kyutai-tts-1.6 b-en_fr 音频生成

SoulX-Podcast 面向多方言的播客级长文本语音生成

用 AI 构建 AI

HyperAI Newsletters

相关教程

Open-AutoGLM：手机端智能助理

Z-Image-Turbo：高效 6B 参数图像生成模型

vLLM+OpenWebUI 部署 VibeThinker-1.5B

Dia2-TTS：实时语音合成服务

LongCat-Image：双语文本驱动图像生成系统

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

腾讯混元 HunyuanVideo-Foley

kyutai-tts-1.6 b-en_fr 音频生成

SoulX-Podcast 面向多方言的播客级长文本语音生成

相关教程

Open-AutoGLM：手机端智能助理