Dia2-TTS:实时语音合成服务
一、教程简介

Dia2-TTS 是一个基于 nari-labs 团队于 2025 年 11 月发布的 Dia2 大规模语音生成模型(Dia2-2B)构建的实时语音合成服务,支持多轮对话脚本输入、双角色语音提示(Prefix Voice)、多参数可控采样,并通过 Gradio 提供完整的 Web 端交互界面,用于高质量对话级语音合成。 Dia2-TTS 可直接输入连续多轮对话脚本,生成自然连贯、角色音色一致的高质量语音,适用于虚拟客服、语音助手、 AI 配音、短剧生成等应用场景。
核心特性:
- 多轮对话语音合成:支持 S1 / S2 双角色连续多轮对话
- 语音前缀驱动音色:通过 Prefix Voice 控制角色音色一致性
- 双采样系统:文本与音频采样参数独立可控
- CFG 可控生成:支持 CFG Scale 调节整体生成强度
- 时间戳对齐输出:单词级时间戳,便于后期字幕与剪辑
- 网页端交互:基于 Gradio,一键式在线推理
本教程使用 Gradio 部署 Dia2-TTS 实时语音合成服务,算力资源采用「RTX_5090」,可流畅运行多轮对话级语音生成任务,目前只能生成英文对话。
二、效果展示

Dia2-TTS 在实际使用中可实现:
- 多轮对话语音合成:支持连续多轮自然对话生成
- 高自然度语音输出:语音流畅、停顿自然、情感稳定
- 角色音色保持:基于语音前缀维持角色音色一致
- 语音时间戳输出:可用于字幕生成、对口型动画、二次剪辑
- 日志可视化输出:完整展示推理过程与生成状态
三、运行步骤
1. 启动容器
启动容器后点击 API 地址即可进入 Web 界面

2. 开始使用
若显示「Bad Gateway」, 表示模型正在初始化,请等待 1-2 分钟刷新页面。
使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

参数说明
- 语音整体控制
- CFG Scale:控制文本与语音生成的整体引导强度
- 文本采样设置
- Text Temperature:控制文本生成随机性
- Text Top-K:控制文本采样候选范围
- 音频采样设置
- Audio Temperature:控制音频生成随机性
- Audio Top-K:控制音频采样候选范围
- 语音前缀控制
- Keep Prefix:是否将前缀语音保留在最终输出中