CSM 对话语音生成模型 Demo
一、教程简介
CSM (Conversational Speech Model) 是由 Sesame 团队于 2025 年开发的对话语音模型,旨在通过自然、连贯的语音生成技术提升语音助手的情感交互能力。该模型基于多模态学习框架,结合文本和语音数据,采用端到端的 Transformer 架构直接生成自然且富有情感的语音,可根据文本和音频输入生成 RVQ 音频代码。该模型架构采用 Llama 主干和可生成 Mimi 音频代码的小型音频解码器。
该教程使用 CSM-1B 模型实现两人对话(仅支持英文生成),算力资源采用 RTX 4090 。
二、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面

2. 设置讲话对象

3. 设置对话和语音合成(仅支持英文生成)

交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓
