HyperAI超神经

Dia-1.6B:情感语音合成 Demo

Image
Build
License: MIT

一、教程简介

Dia-1.6B 是由 Nari Labs 团队于 2025 年 4 月 21 日发布的文本转语音模型,它能够直接从文本脚本生成高度逼真的对话,并支持基于音频的情感和语调控制。此外,Dia-1.6B 还可以生成非语言交流的声音,如笑声、咳嗽声、清喉咙声等,使对话更加自然和生动。该模型不仅支持多角色对话生成,还能通过 [S1] 、 [S2] 等标签区分角色,单次生成多角色对话,保持自然节奏和情感过渡。本项目也支持上传自己的音频样本,模型将根据样本生成相似的语音,实现零样本声纹克隆。

本教程采用资源为单卡 RTX 4090,目前仅支持英语生成。

👉 该项目提供了一种型号的模型:

  • Dia – 1.6B:  拥有 1.6B 参数文本转语音模型。

二、项目示例

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 1-2 分钟后刷新页面。

2. 进入网页后,即可与模型展开对话

参数说明:

  • Max New Tokens:控制生成音频的长度。
  • CFG Scale:调节生成对输入条件的遵循程度。
  • Temperature:控制生成结果的随机性。
  • Top P:控制候选选择的多样性。
  • CFG Filter Top K:结合 CFG 的 Top K 过滤,平衡相关性和多样性。
  • Speed Factor:调整生成音频的播放速度或生成节奏。

使用步骤

在「Input text」中输入生成文本,可通过 [S1] 、 [S2] 标签区分角色对话。若参考音频中存在两种不同的音色,我们将其依次标记为 S1(第一个音色)和 S2(第二个音色)。人物音色将与参考音频中的这两种音色一一对应。若参考音频中存在一种音色,我们将其标记为 S1(第一个音色)。 

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓