日期

7 个月前

标签

RTX 5090

音频生成

许可证

Apache 2.0

GitHub

nari-labs/dia21.2k

一、教程简介

Dia2-TTS 是一个基于 nari-labs 团队于 2025 年 11 月发布的 Dia2 大规模语音生成模型（Dia2-2B）构建的实时语音合成服务，支持多轮对话脚本输入、双角色语音提示（Prefix Voice）、多参数可控采样，并通过 Gradio 提供完整的 Web 端交互界面，用于高质量对话级语音合成。 Dia2-TTS 可直接输入连续多轮对话脚本，生成自然连贯、角色音色一致的高质量语音，适用于虚拟客服、语音助手、 AI 配音、短剧生成等应用场景。

核心特性：

多轮对话语音合成：支持 S1 / S2 双角色连续多轮对话
语音前缀驱动音色：通过 Prefix Voice 控制角色音色一致性
双采样系统：文本与音频采样参数独立可控
CFG 可控生成：支持 CFG Scale 调节整体生成强度
时间戳对齐输出：单词级时间戳，便于后期字幕与剪辑
网页端交互：基于 Gradio，一键式在线推理

本教程使用 Gradio 部署 Dia2-TTS 实时语音合成服务，算力资源采用「RTX_5090」，可流畅运行多轮对话级语音生成任务，目前只能生成英文对话。

二、效果展示

Dia2-TTS 在实际使用中可实现：

多轮对话语音合成：支持连续多轮自然对话生成
高自然度语音输出：语音流畅、停顿自然、情感稳定
角色音色保持：基于语音前缀维持角色音色一致
语音时间戳输出：可用于字幕生成、对口型动画、二次剪辑
日志可视化输出：完整展示推理过程与生成状态

三、运行步骤

1. 启动容器

启动容器后点击 API 地址即可进入 Web 界面

2. 开始使用

若显示「Bad Gateway」, 表示模型正在初始化，请等待 1-2 分钟刷新页面。

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

参数说明

语音整体控制
- CFG Scale：控制文本与语音生成的整体引导强度
文本采样设置
- Text Temperature：控制文本生成随机性
- Text Top-K：控制文本采样候选范围
音频采样设置
- Audio Temperature：控制音频生成随机性
- Audio Top-K：控制音频采样候选范围
语音前缀控制
- Keep Prefix：是否将前缀语音保留在最终输出中

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

教程概览

级别

入门

主题

音频生成式 AI

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

7 个月前

标签

RTX 5090

音频生成

许可证

Apache 2.0

GitHub

nari-labs/dia21.2k

一、教程简介

核心特性：

多轮对话语音合成：支持 S1 / S2 双角色连续多轮对话
语音前缀驱动音色：通过 Prefix Voice 控制角色音色一致性
双采样系统：文本与音频采样参数独立可控
CFG 可控生成：支持 CFG Scale 调节整体生成强度
时间戳对齐输出：单词级时间戳，便于后期字幕与剪辑
网页端交互：基于 Gradio，一键式在线推理

本教程使用 Gradio 部署 Dia2-TTS 实时语音合成服务，算力资源采用「RTX_5090」，可流畅运行多轮对话级语音生成任务，目前只能生成英文对话。

二、效果展示

Dia2-TTS 在实际使用中可实现：

多轮对话语音合成：支持连续多轮自然对话生成
高自然度语音输出：语音流畅、停顿自然、情感稳定
角色音色保持：基于语音前缀维持角色音色一致
语音时间戳输出：可用于字幕生成、对口型动画、二次剪辑
日志可视化输出：完整展示推理过程与生成状态

三、运行步骤

1. 启动容器

启动容器后点击 API 地址即可进入 Web 界面

2. 开始使用

若显示「Bad Gateway」, 表示模型正在初始化，请等待 1-2 分钟刷新页面。

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

参数说明

语音整体控制
- CFG Scale：控制文本与语音生成的整体引导强度
文本采样设置
- Text Temperature：控制文本生成随机性
- Text Top-K：控制文本采样候选范围
音频采样设置
- Audio Temperature：控制音频生成随机性
- Audio Top-K：控制音频采样候选范围
语音前缀控制
- Keep Prefix：是否将前缀语音保留在最终输出中

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

教程概览

级别

入门

主题

音频生成式 AI

OmniVoice：支持 600+ 语言的高质量 TTS

2 个月前

使用 Free-CPU 部署 MOSS-TTS-Nano

2 个月前

Voxtral 4B TTS 2603 多语言语音生成

3 个月前

MOSS-TTS ：高保真多场景语音生成模型

4 个月前

Qwen3-TTS：高质量可控多语言语音合成 Demo

4 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Dia2-TTS：实时语音合成服务

一、教程简介

二、效果展示

三、运行步骤

1. 启动容器

2. 开始使用

参数说明

教程概览

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Dia2-TTS：实时语音合成服务

一、教程简介

二、效果展示

三、运行步骤

1. 启动容器

2. 开始使用

参数说明

教程概览

相关教程

OmniVoice：支持 600+ 语言的高质量 TTS

使用 Free-CPU 部署 MOSS-TTS-Nano

Voxtral 4B TTS 2603 多语言语音生成

MOSS-TTS ：高保真多场景语音生成模型

Qwen3-TTS：高质量可控多语言语音合成 Demo

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Dia2-TTS：实时语音合成服务

一、教程简介

二、效果展示

三、运行步骤

1. 启动容器

2. 开始使用

参数说明

教程概览

相关教程

OmniVoice：支持 600+ 语言的高质量 TTS

使用 Free-CPU 部署 MOSS-TTS-Nano

Voxtral 4B TTS 2603 多语言语音生成

MOSS-TTS ：高保真多场景语音生成模型

Qwen3-TTS：高质量可控多语言语音合成 Demo

用 AI 构建 AI

HyperAI Newsletters

相关教程

OmniVoice：支持 600+ 语言的高质量 TTS

使用 Free-CPU 部署 MOSS-TTS-Nano

Voxtral 4B TTS 2603 多语言语音生成

MOSS-TTS ：高保真多场景语音生成模型

Qwen3-TTS：高质量可控多语言语音合成 Demo

相关教程

OmniVoice：支持 600+ 语言的高质量 TTS

使用 Free-CPU 部署 MOSS-TTS-Nano

Voxtral 4B TTS 2603 多语言语音生成

MOSS-TTS ：高保真多场景语音生成模型

Qwen3-TTS：高质量可控多语言语音合成 Demo