HyperAI

运行此教程在 Discord 上讨论

日期

9 个月前

大小

73.39 MB

标签

音频分类

音频生成

许可证

Other

GitHub

bytedance/MegaTTS3

论文 URL

2502.18924

一、教程简介

本教程采用资源为单卡 RTX 4090 。

👉 该项目提供了一种型号的模型：

MegaTTS 3 ：一种具有创新稀疏对齐的 TTS 系统引导「潜在扩散转换器」的算法，实现了最先进的零样本 TTS 语音质量，并支持对口音强度的高度灵活控制。可克隆输入的音色，根据需求使用该音色生成特定的音频内容。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

2. 进入网页后，即可使用 MegaTTS 3

使用步骤

① 将 wav 类型的音频文件和对应生成的 npy 文件分别上传；

② input_text 中输入指定文本；

③ submit 提交之后，就会克隆音频文件中的音色，生成 input_text 中文本对应的音频。

❗️参数说明:

infer timestep: 影响模型生成声音的时间步长，通常控制生成过程中的时间步数。较小的 timestep 可能使声音更流畅，因为模型有更多的时间步来细化声音特征。
Intelligibility Weight: 调节声音的清晰度和可懂度。较高的权重使声音更清晰，适合需要准确传达信息的场景，但可能牺牲部分自然度。
Similarity Weight: 控制生成声音与原声音的相似度。较高的权重使声音更接近原声音，适合忠实再现目标语音的场景。

示例文件获取

进入网址 https://drive.google.com/drive/folders/1QhcHWcy20JfqWjgqZX1YM3I6i9u4oNlr，有三个子文件夹 (librispeech_testclean_40, official_test_case, user_batch_1-3)，包含了所有当前可用的音色。进入文件夹后，试听并下载 wav 文件和 npy 文件即可。

交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

感谢 Github 用户 kjasdkj 对本教程的制作，本项目引用信息如下：

@article{jiang2025sparse,
  title={Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis},
  author={Jiang, Ziyue and Ren, Yi and Li, Ruiqi and Ji, Shengpeng and Ye, Zhenhui and Zhang, Chen and Jionghao, Bai and Yang, Xiaoda and Zuo, Jialong and Zhang, Yu and others},
  journal={arXiv preprint arXiv:2502.18924},
  year={2025}
}

@article{ji2024wavtokenizer,
  title={Wavtokenizer: an efficient acoustic discrete codec tokenizer for audio language modeling},
  author={Ji, Shengpeng and Jiang, Ziyue and Wang, Wen and Chen, Yifu and Fang, Minghui and Zuo, Jialong and Yang, Qian and Cheng, Xize and Wang, Zehan and Li, Ruiqi and others},
  journal={arXiv preprint arXiv:2408.16532},
  year={2024}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

9 个月前

大小

73.39 MB

标签

音频分类

音频生成

许可证

Other

GitHub

bytedance/MegaTTS3

论文 URL

2502.18924

一、教程简介

本教程采用资源为单卡 RTX 4090 。

👉 该项目提供了一种型号的模型：

MegaTTS 3 ：一种具有创新稀疏对齐的 TTS 系统引导「潜在扩散转换器」的算法，实现了最先进的零样本 TTS 语音质量，并支持对口音强度的高度灵活控制。可克隆输入的音色，根据需求使用该音色生成特定的音频内容。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

2. 进入网页后，即可使用 MegaTTS 3

使用步骤

① 将 wav 类型的音频文件和对应生成的 npy 文件分别上传；

② input_text 中输入指定文本；

③ submit 提交之后，就会克隆音频文件中的音色，生成 input_text 中文本对应的音频。

❗️参数说明:

infer timestep: 影响模型生成声音的时间步长，通常控制生成过程中的时间步数。较小的 timestep 可能使声音更流畅，因为模型有更多的时间步来细化声音特征。
Intelligibility Weight: 调节声音的清晰度和可懂度。较高的权重使声音更清晰，适合需要准确传达信息的场景，但可能牺牲部分自然度。
Similarity Weight: 控制生成声音与原声音的相似度。较高的权重使声音更接近原声音，适合忠实再现目标语音的场景。

示例文件获取

交流探讨

引用信息

感谢 Github 用户 kjasdkj 对本教程的制作，本项目引用信息如下：

@article{jiang2025sparse,
  title={Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis},
  author={Jiang, Ziyue and Ren, Yi and Li, Ruiqi and Ji, Shengpeng and Ye, Zhenhui and Zhang, Chen and Jionghao, Bai and Yang, Xiaoda and Zuo, Jialong and Zhang, Yu and others},
  journal={arXiv preprint arXiv:2502.18924},
  year={2025}
}

@article{ji2024wavtokenizer,
  title={Wavtokenizer: an efficient acoustic discrete codec tokenizer for audio language modeling},
  author={Ji, Shengpeng and Jiang, Ziyue and Wang, Wen and Chen, Yifu and Fang, Minghui and Zuo, Jialong and Yang, Qian and Cheng, Xize and Wang, Zehan and Li, Ruiqi and others},
  journal={arXiv preprint arXiv:2408.16532},
  year={2024}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

F5-E2 TTS 只需 3 秒克隆任何音色

2 个月前

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

2 个月前

SoulX-Podcast 面向多方言的播客级长文本语音生成

2 个月前

HunyuanOCR：腾讯混元端到端 OCR

2 个月前

kyutai-tts-1.6 b-en_fr 音频生成

1 个月前

VibeVoice-Realtime TTS：实时语音合成服务

2 个月前

Open-AutoGLM：手机端智能助理

2 个月前

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

1 个月前

PaddleOCR-VL：多模态文档解析

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

一键部署 MegaTTS3

一、教程简介

二、运行步骤

示例文件获取

交流探讨

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

一键部署 MegaTTS3

一、教程简介

二、运行步骤

示例文件获取

交流探讨

引用信息

相关教程

F5-E2 TTS 只需 3 秒克隆任何音色

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

SoulX-Podcast 面向多方言的播客级长文本语音生成

HunyuanOCR：腾讯混元端到端 OCR

kyutai-tts-1.6 b-en_fr 音频生成

VibeVoice-Realtime TTS：实时语音合成服务

Open-AutoGLM：手机端智能助理

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

PaddleOCR-VL：多模态文档解析

用 AI 构建 AI

HyperAI Newsletters

Command Palette

一键部署 MegaTTS3

一、教程简介

二、运行步骤

示例文件获取

交流探讨

引用信息

相关教程

F5-E2 TTS 只需 3 秒克隆任何音色

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

SoulX-Podcast 面向多方言的播客级长文本语音生成

HunyuanOCR：腾讯混元端到端 OCR

kyutai-tts-1.6 b-en_fr 音频生成

VibeVoice-Realtime TTS：实时语音合成服务

Open-AutoGLM：手机端智能助理

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

PaddleOCR-VL：多模态文档解析

用 AI 构建 AI

HyperAI Newsletters

相关教程

F5-E2 TTS 只需 3 秒克隆任何音色

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

SoulX-Podcast 面向多方言的播客级长文本语音生成

HunyuanOCR：腾讯混元端到端 OCR

kyutai-tts-1.6 b-en_fr 音频生成

VibeVoice-Realtime TTS：实时语音合成服务

Open-AutoGLM：手机端智能助理

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

PaddleOCR-VL：多模态文档解析

相关教程

F5-E2 TTS 只需 3 秒克隆任何音色

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

SoulX-Podcast 面向多方言的播客级长文本语音生成

HunyuanOCR：腾讯混元端到端 OCR

kyutai-tts-1.6 b-en_fr 音频生成

VibeVoice-Realtime TTS：实时语音合成服务

Open-AutoGLM：手机端智能助理

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

PaddleOCR-VL：多模态文档解析