HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Dia2-TTS:实时语音合成服务

一、教程简介

Build

Dia2-TTS 是一个基于 nari-labs 团队于 2025 年 11 月发布的 Dia2 大规模语音生成模型(Dia2-2B)构建的实时语音合成服务,支持多轮对话脚本输入、双角色语音提示(Prefix Voice)、多参数可控采样,并通过 Gradio 提供完整的 Web 端交互界面,用于高质量对话级语音合成。 Dia2-TTS 可直接输入连续多轮对话脚本,生成自然连贯、角色音色一致的高质量语音,适用于虚拟客服、语音助手、 AI 配音、短剧生成等应用场景。

核心特性:

  • 多轮对话语音合成:支持 S1 / S2 双角色连续多轮对话
  • 语音前缀驱动音色:通过 Prefix Voice 控制角色音色一致性
  • 双采样系统:文本与音频采样参数独立可控
  • CFG 可控生成:支持 CFG Scale 调节整体生成强度
  • 时间戳对齐输出:单词级时间戳,便于后期字幕与剪辑
  • 网页端交互:基于 Gradio,一键式在线推理

本教程使用 Gradio 部署 Dia2-TTS 实时语音合成服务,算力资源采用「RTX_5090」,可流畅运行多轮对话级语音生成任务,目前只能生成英文对话。

二、效果展示

Dia2-TTS 在实际使用中可实现:

  • 多轮对话语音合成:支持连续多轮自然对话生成
  • 高自然度语音输出:语音流畅、停顿自然、情感稳定
  • 角色音色保持:基于语音前缀维持角色音色一致
  • 语音时间戳输出:可用于字幕生成、对口型动画、二次剪辑
  • 日志可视化输出:完整展示推理过程与生成状态

三、运行步骤

1. 启动容器

启动容器后点击 API 地址即可进入 Web 界面

2. 开始使用

若显示「Bad Gateway」, 表示模型正在初始化,请等待 1-2 分钟刷新页面。

使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

参数说明

  • 语音整体控制
    • CFG Scale:控制文本与语音生成的整体引导强度
  • 文本采样设置
    • Text Temperature:控制文本生成随机性
    • Text Top-K:控制文本采样候选范围
  • 音频采样设置
    • Audio Temperature:控制音频生成随机性
    • Audio Top-K:控制音频采样候选范围
  • 语音前缀控制
    • Keep Prefix:是否将前缀语音保留在最终输出中

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Dia2-TTS:实时语音合成服务 | 教程 | HyperAI超神经