HyperAI超神经

一键部署 MegaTTS3

一、教程简介

MegaTTS 3 项目是字节跳动智能创作团队于 2025 年 3 月发布的文本到语音 (Text-to-Speech,TTS) 模型。 它主要用于将输入的文本转换为高质量、自然流畅的语音输出。相关论文成果为「MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis」。 MegaTTS 3 是一种具有创新稀疏对齐的 TTS 系统引导潜在扩散转换器 (DiT) 的算法,实现了最先进的零样本 TTS 语音质量,并支持对口音强度的高度灵活控制。

本教程采用资源为单卡 RTX 4090 。

👉 该项目提供了一种型号的模型:

  • MegaTTS 3 :一种具有创新稀疏对齐的 TTS 系统引导「潜在扩散转换器」的算法,实现了最先进的零样本 TTS 语音质量,并支持对口音强度的高度灵活控制。可克隆输入的音色,根据需求使用该音色生成特定的音频内容。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 1-2 分钟后刷新页面。

2. 进入网页后,即可使用 MegaTTS 3

使用步骤

① 将 wav 类型的音频文件和对应生成的 npy 文件分别上传;

② input_text 中输入指定文本;

③ submit 提交之后,就会克隆音频文件中的音色,生成 input_text 中文本对应的音频。

❗️参数说明:

  • infer timestep:  影响模型生成声音的时间步长,通常控制生成过程中的时间步数。较小的 timestep 可能使声音更流畅,因为模型有更多的时间步来细化声音特征。
  • Intelligibility Weight:  调节声音的清晰度和可懂度。较高的权重使声音更清晰,适合需要准确传达信息的场景,但可能牺牲部分自然度。
  • Similarity Weight:  控制生成声音与原声音的相似度。较高的权重使声音更接近原声音,适合忠实再现目标语音的场景。

示例文件获取

进入网址 https://drive.google.com/drive/folders/1QhcHWcy20JfqWjgqZX1YM3I6i9u4oNlr,有三个子文件夹 (librispeech_testclean_40, official_test_case, user_batch_1-3),包含了所有当前可用的音色。进入文件夹后,试听并下载 wav 文件和 npy 文件即可。

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

image

引用信息

感谢 Github 用户 kjasdkj  对本教程的制作,本项目引用信息如下:

@article{jiang2025sparse,
  title={Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis},
  author={Jiang, Ziyue and Ren, Yi and Li, Ruiqi and Ji, Shengpeng and Ye, Zhenhui and Zhang, Chen and Jionghao, Bai and Yang, Xiaoda and Zuo, Jialong and Zhang, Yu and others},
  journal={arXiv preprint arXiv:2502.18924},
  year={2025}
}

@article{ji2024wavtokenizer,
  title={Wavtokenizer: an efficient acoustic discrete codec tokenizer for audio language modeling},
  author={Ji, Shengpeng and Jiang, Ziyue and Wang, Wen and Chen, Yifu and Fang, Minghui and Zuo, Jialong and Yang, Qian and Cheng, Xize and Wang, Zehan and Li, Ruiqi and others},
  journal={arXiv preprint arXiv:2408.16532},
  year={2024}
}