HyperAI

日期

1 年前

标签

语音生成

音频生成

一、教程简介

该教程使用 CSM-1B 模型实现两人对话（仅支持英文生成），算力资源采用 RTX 4090 。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 设置讲话对象

3. 设置对话和语音合成（仅支持英文生成）

交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Command Palette

CSM 双人对话语音生成模型 Demo

一、教程简介

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 设置讲话对象

3. 设置对话和语音合成（仅支持英文生成）

交流探讨

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CSM 双人对话语音生成模型 Demo

一、教程简介

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 设置讲话对象

3. 设置对话和语音合成（仅支持英文生成）

交流探讨

相关笔记本

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

HunyuanOCR：腾讯混元端到端 OCR

MAGE：单克隆抗体基因生成器

SoulX-Podcast 面向多方言的播客级长文本语音生成

LongCat-Image：双语文本驱动图像生成系统

一键部署 Qwen-Image-Lightning

GLM-ASR-Nano 智谱语音识别

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

kyutai-tts-1.6 b-en_fr 音频生成

JarvisArt-Preview 智能照片修饰代理

HunyuanWorld-1.0：3D 世界生成模型

n8n-workflows：工作流合集

Stable-Diffusion 在线教程-RTX5090

vLLM + Open WebUI 部署 Apriel-1.5-15b-Thinker

Long-VITA：百万 Token 多模态理解 Demo

Fara-7B：高效的网页智能体模型

Qwen3-TTS：高质量可控多语言语音合成 Demo

ACE-Step 1.5：音乐生成 Demo

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CSM 双人对话语音生成模型 Demo

一、教程简介

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 设置讲话对象

3. 设置对话和语音合成（仅支持英文生成）

交流探讨

相关笔记本

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

HunyuanOCR：腾讯混元端到端 OCR

MAGE：单克隆抗体基因生成器

SoulX-Podcast 面向多方言的播客级长文本语音生成

LongCat-Image：双语文本驱动图像生成系统

一键部署 Qwen-Image-Lightning

GLM-ASR-Nano 智谱语音识别

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

kyutai-tts-1.6 b-en_fr 音频生成

JarvisArt-Preview 智能照片修饰代理

HunyuanWorld-1.0：3D 世界生成模型

n8n-workflows：工作流合集

Stable-Diffusion 在线教程-RTX5090

vLLM + Open WebUI 部署 Apriel-1.5-15b-Thinker

Long-VITA：百万 Token 多模态理解 Demo

Fara-7B：高效的网页智能体模型

Qwen3-TTS：高质量可控多语言语音合成 Demo

ACE-Step 1.5：音乐生成 Demo

用 AI 构建 AI

HyperAI Newsletters

相关笔记本

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

HunyuanOCR：腾讯混元端到端 OCR

MAGE：单克隆抗体基因生成器

SoulX-Podcast 面向多方言的播客级长文本语音生成

LongCat-Image：双语文本驱动图像生成系统