F5-E2 TTS 只需 3 秒克隆任何音色

F5-TTS:声音克隆,二人对话,多音色混合

教程简介

该教程仅需 RTX 4090 即可启动。

该教程包含了两个模型的 Demo 使用,分别为 F5-TTS 和 E2 TTS 。

F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统,它基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术。相关论文成果为「F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching」。这一系统能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。 F5-TTS 支持多语言合成,包括中文和英文,且能在长文本上进行有效的语音合成。此外,F5-TTS 还具备情感控制功能,能根据文本内容调整合成语音的情感表现,并支持速度控制,允许用户根据需要调整语音的播放速度。系统在 10 万小时的大规模数据集上进行训练,展现出了卓越的性能和泛化能力。 F5-TTS 的主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT) 、 ConvNeXt V2 文本表示改进、 Sway Sampling 策略以及端到端的系统设计。 F5-TTS 的应用场景广泛,包括有声读物、语音助手、语言学习、新闻播报、游戏配音等,为各种商业和非商业用途提供强大的语音合成能力。

E2 TTS,全称为「Embarrassingly Easy Text-to-Speech」,是一种先进的文本转语音 (TTS) 系统,它通过简化的流程实现了人类水平的自然度和说话人相似性。 E2 TTS 的核心在于它完全非自回归的特性,这意味着它可以一次性生成整个语音序列,而不需要逐步生成,从而显著提高了生成速度并保持了高质量的语音输出。相关论文成果为「E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS」,已被 SLT 2024 接受。 在 E2 TTS 框架中,文本输入被转换为带有填充标记的字符序列。然后根据音频填充任务训练基于流匹配的梅尔频谱图生成器。与许多以前的工作不同,它不需要额外的组件(例如持续时间模型、字素到音素)或复杂的技术(例如单调对齐搜索)。尽管 E2 TTS 很简单,但它实现了最先进的零样本 TTS 功能,可与包括 Voicebox 和 NaturalSpeech 3 在内的以前的作品相媲美或超越。 E2 TTS 的简单性还允许输入表示的灵活性。

该教程支持如下模型和功能:

2 个模型检查点:
- F5-TTS
- E2 TTS

3 个功能:
- 单人语音生成(Batched TTS): 根据上传的音频进行文本生成。
- 双人语音生成(Podcast Generation):根据双人音频模拟双人对话。
- 多种语音类型生成(Multiple Speech-Type Generation):可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。

运行步骤

启动容器后点击 API 地址即可进入 Web 界面

1. 单人语音生成(Batched TTS)

选择 TTS 功能,按如下要求上传音频、文本提示词、按需设置高级参数。

  • 音频:上传一段清晰、高质量的单人讲话音频,模型将模仿该音频进行生成。
  • 文本提示词:要生成的文本。

高级参数

  • 参考文本(Reference Text):留空以自动转录参考音频。如果您输入文本,它将覆盖自动转录。
  • 移除静音(Remove Silences):该模型往往会产生静音,尤其是在较长的音频上。如果需要,我们可以手动删除静音。请注意,这是一个实验性功能,可能会产生奇怪的结果。这也会增加生成时间。
  • 断句符号(Custom Split Words):输入要分割的自定义单词,以逗号分隔。留空以使用默认列表。
  • 速度:控制生成的语速

如下图所示

2. 多人语音生成(Podcast Generation)

选择 Podcast Generation 功能,按如下要求上传多人音频、文本提示词,这个功能就是使用模型模仿两个人的对话,需要使用两个人的名称、音频。

  • 音频:分别上传两段清晰、高质量的讲话音频,模型将模仿该音频进行生成。
  • 参考文本(Reference Text):默认为留空以自动转录参考音频。如果您输入文本,它将覆盖自动转录。
  • 选择模型:默认为 F5-TTS

如下图所示

3. 多种语音类型生成(Multiple Speech-Type Generation)

选择 Multiple Speech-Type Generation 功能,按如下要求上传不同情绪的音频、文本提示词,这个功能就是使用模型模拟情绪,根据不同的情绪进行音频生成。

  • 音频:分别上传多段清晰、高质量的不同情绪下的音频,模型将模仿该音频进行生成。
  • 参考文本(Reference Text):默认为留空以自动转录参考音频。如果您输入文本,它将覆盖自动转录。
  • 选择模型:默认为 F5-TTS

例如分别上传 Regular 、 Surprised 、 Sad 、 Angry 、 Whisper 、 Shouting 五段音频 输入生成文本:

(Regular) Hello, I’d like to order a sandwich please. (Surprised) What do you mean you’re out of bread? (Sad) I really wanted a sandwich though… (Angry) You know what, darn you and your little shop, you suck! (Whisper) I’ll just go back home and cry now. (Shouting) Why me?!

即可生成一段不同情绪的语音 如下示例

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓