HyperAI超神经

一、教程简介

Dia-1.6B 是由 Nari Labs 团队于 2025 年 4 月 21 日发布的文本转语音模型，它能够直接从文本脚本生成高度逼真的对话，并支持基于音频的情感和语调控制。此外，Dia-1.6B 还可以生成非语言交流的声音，如笑声、咳嗽声、清喉咙声等，使对话更加自然和生动。该模型不仅支持多角色对话生成，还能通过 [S1] 、 [S2] 等标签区分角色，单次生成多角色对话，保持自然节奏和情感过渡。本项目也支持上传自己的音频样本，模型将根据样本生成相似的语音，实现零样本声纹克隆。

本教程采用资源为单卡 RTX 4090，目前仅支持英语生成。

👉 该项目提供了一种型号的模型：

Dia – 1.6B: 拥有 1.6B 参数文本转语音模型。

二、项目示例

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

2. 进入网页后，即可与模型展开对话

参数说明:

Max New Tokens：控制生成音频的长度。
CFG Scale：调节生成对输入条件的遵循程度。
Temperature：控制生成结果的随机性。
Top P：控制候选选择的多样性。
CFG Filter Top K：结合 CFG 的 Top K 过滤，平衡相关性和多样性。
Speed Factor：调整生成音频的播放速度或生成节奏。

使用步骤

在「Input text」中输入生成文本，可通过 [S1] 、 [S2] 标签区分角色对话。若参考音频中存在两种不同的音色，可将其依次标记为 S1（第一个音色）和 S2（第二个音色）。人物音色将与参考音频中的这两种音色一一对应。若参考音频中存在一种音色，可将其标记为 S1（第一个音色）。

交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

Dia-1.6B：情感语音合成 Demo

一、教程简介

二、项目示例

二、运行步骤

交流探讨