Parler-TTS 是一种轻量级的文本转语音 (TTS) 模型,可以生成具有给定说话者风格的高质量、自然语音,自由度及创新性非常高,并且可以通过 Prompt 控制说话者的性别、音色、语调以及所处的场景(室内、室外、马路上、音乐厅等)。它是 Stability AI 和爱丁堡大学的 Dan Lyth 和 Simon King 论文「 Natural language guide of high-fidelity text-to-speech with synthetic commenting」的代码复现。
与其他 TTS 模型不同,Parler-TTS 是完全开源的。所有数据集、预处理、训练代码和权重均在许可下公开发布,使社区能够在该教程的工作基础上开发自己的强大 TTS 模型。 注意:该模型暂不支持中文
1. 克隆并启动容器,等待约 30s(加载模型),点击 API 地址即可进入 Web 界面(使用 RTX 4090 即可启动)
2. 输入要生成的文字和风格描述,点击提交即可生成
• Input Text:需要转语音的文本
• Description:对于音频角色、场景、语调、音色等信息的描述,类似于 Prompt 。比如:A man voice speaks slightly slowly with very noisy background, carrying a low-pitch tone and displaying a touch of expressiveness and animation. The sound is very distant, adding an air of intrigue.
• Parler-TTS generation:生成的音频文件(可试听、下载)
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓