Higgs Audio V2:重新定义语音生成的表达能力

一、教程简介

GitHub Stars

Higgs Audio V2 是由李沐及其团队 Boson AI 于 2025 年 7 月发布的的语音大模型。在 EmergentTTS-Eval 上,该模型在「情绪」和「问题」类别上分别比「gpt-4o-mini-tts」胜率分别为 75.7% 和 55.7% 。它还在 Seed-TTS Eval 和 Emotional Speech Dataset(ESD)等传统 TTS 基准测试中获得了最先进的性能。此外,该模型还展示了以前系统中很少见的功能,包括旁白时的自动韵律适应、多语言自然多说话者对话的零样本生成、克隆声音的旋律哼唱以及同时生成语音和背景音乐。相关论文成果为「EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge」。

本教程采用资源为单卡 RTX 4090 。本教材提供 voice-clone 、 smart-voice 、 multispeaker-voice-description 、 single-speaker-voice-description 、 single-speaker-zh 和 single-speaker-bgm 六个示例供测试。 System Prompt 仅支持英文。

二、项目示例

voice-clone

smart-voice

multispeaker-voice-description

single-speaker-voice-description

single-speaker-zh

single-speaker-bgm

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

2.1 voice-clone

参数说明

  • Advanced Parameters:
    • Max Completion Tokens:限制生成音频的文本长度(以标记数计)。值越大,生成的音频可能越长。
    • Temperature:控制生成的随机性。值低(如 0.1)使输出更确定、重复性高;值高(如 1.0)使输出更多样、创造性强,但可能不连贯。
    • Top P:限制模型在每步选择时考虑的标记范围(累计概率)。值低(如 0.5)使输出更集中;值高(如 0.95)使输出更多样。
    • Top K:限制模型在每步只从概率最高的 K 个标记中选择。值低使输出更确定;值高(或设为 -1 禁用)使输出更多样。
    • RAS Window Length:启用重复避免功能,定义检查重复的文本窗口大小。设为 0 可禁用此功能。
    • RAS Max Num Repeat:与 RAS 窗口配合,定义在该窗口内某内容最多可重复的次数。值低可减少重复,值高允许更多自然重复。

2.2 smart-voice

2.3 multispeaker-voice-description

2.4 single-speaker-voice-description

2.5 single-speaker-zh

2.6 single-speaker-bgm

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

本项目引用信息如下:

@misc{higgsaudio2025,
  author       = {{Boson AI}},
  title        = {{Higgs Audio V2: Redefining Expressiveness in Audio Generation}},
  year         = {2025},
  howpublished = {\url{https://github.com/boson-ai/higgs-audio}},
  note         = {GitHub repository. Release blog available at \url{https://www.boson.ai/blog/higgs-audio-v2}},
}
Higgs Audio V2:重新定义语音生成的表达能力 | 教程 | HyperAI超神经