该教程仅需 RTX 4090 即可启动。
该教程包含了两个模型的 Demo 使用,分别为 F5-TTS 和 E2 TTS 。
F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统,它基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术。相关论文成果为「F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching」。这一系统能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。 F5-TTS 支持多语言合成,包括中文和英文,且能在长文本上进行有效的语音合成。此外,F5-TTS 还具备情感控制功能,能根据文本内容调整合成语音的情感表现,并支持速度控制,允许用户根据需要调整语音的播放速度。系统在 10 万小时的大规模数据集上进行训练,展现出了卓越的性能和泛化能力。 F5-TTS 的主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT) 、 ConvNeXt V2 文本表示改进、 Sway Sampling 策略以及端到端的系统设计。 F5-TTS 的应用场景广泛,包括有声读物、语音助手、语言学习、新闻播报、游戏配音等,为各种商业和非商业用途提供强大的语音合成能力。
E2 TTS,全称为「Embarrassingly Easy Text-to-Speech」,是一种先进的文本转语音 (TTS) 系统,它通过简化的流程实现了人类水平的自然度和说话人相似性。 E2 TTS 的核心在于它完全非自回归的特性,这意味着它可以一次性生成整个语音序列,而不需要逐步生成,从而显著提高了生成速度并保持了高质量的语音输出。相关论文成果为「E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS」,已被 SLT 2024 接受。 在 E2 TTS 框架中,文本输入被转换为带有填充标记的字符序列。然后根据音频填充任务训练基于流匹配的梅尔频谱图生成器。与许多以前的工作不同,它不需要额外的组件(例如持续时间模型、字素到音素)或复杂的技术(例如单调对齐搜索)。尽管 E2 TTS 很简单,但它实现了最先进的零样本 TTS 功能,可与包括 Voicebox 和 NaturalSpeech 3 在内的以前的作品相媲美或超越。 E2 TTS 的简单性还允许输入表示的灵活性。
该教程支持如下模型和功能:
2 个模型检查点:
- F5-TTS
- E2 TTS
3 个功能:
- 单人语音生成(Batched TTS): 根据上传的音频进行文本生成。
- 双人语音生成(Podcast Generation):根据双人音频模拟双人对话。
- 多种语音类型生成(Multiple Speech-Type Generation):可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。
启动容器后点击 API 地址即可进入 Web 界面
选择 TTS 功能,按如下要求上传音频、文本提示词、按需设置高级参数。
高级参数
如下图所示
选择 Podcast Generation 功能,按如下要求上传多人音频、文本提示词,这个功能就是使用模型模仿两个人的对话,需要使用两个人的名称、音频。
如下图所示
选择 Multiple Speech-Type Generation 功能,按如下要求上传不同情绪的音频、文本提示词,这个功能就是使用模型模拟情绪,根据不同的情绪进行音频生成。
例如分别上传 Regular 、 Surprised 、 Sad 、 Angry 、 Whisper 、 Shouting 五段音频 输入生成文本:
(Regular) Hello, I’d like to order a sandwich please. (Surprised) What do you mean you’re out of bread? (Sad) I really wanted a sandwich though… (Angry) You know what, darn you and your little shop, you suck! (Whisper) I’ll just go back home and cry now. (Shouting) Why me?!
即可生成一段不同情绪的语音 如下示例
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓