Fish Speech 是一个由 Fish Audio 于 2024 年开发的开源文本转语音(TTS)模型,它能够生成高质量、自然的语音。这个模型经过了大约 15 万小时的数据训练,能够熟练掌握中文、日语和英语,其语言处理能力接近人类水平,并且声音表现形式丰富多变。作为一个亿级参数的模型,Fish Speech 设计高效轻量,可以在个人设备上轻松运行和微调,成为用户的私人语音助手。
Fish Speech 的主要功能包括文本转语音、多语言支持、语音定制、高质量音色库以及免费开源等。它适用于多种场景,如内容创作、教育领域、客户服务、辅助工具等。模型还提供了 API 集成和模型微调的支持,使得用户可以根据自己的需求进行定制和优化。
最新版本 1.4 在多语言支持和性能方面取得了重大突破,训练数据量翻倍至 70 万小时,支持 8 种主要语言,包括英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语。新版本还引入了即时语音克隆功能,允许用户快速复制特定的语音风格,并提供了灵活的部署选项和 API 服务。
本教程已经将模型与环境部署完毕,大家可根据教程指引直接进行声音克隆或文本转语音任务。
1. 首先克隆容器, 按步骤启动容器
2. 复制生成的 API 地址到浏览器即可使用
3. 该教程主要包含 2 个功能:文本转语音和声音克隆
3.1 文本转语音:在「Input Text」输入生成的文本,点击「Generate」即可生成结果
* Advanced Configs
相关的采样参数具体如下:
3.2 声音克隆:选择「Reference Audio」并点击「Enable Reference Audio」,
上传「Reference Audio(参考音频)」,以及「Reference Text(参考文本)」,在「Input Text」输入生成的文本,点击「Generate」即可生成声音克隆结果
4. 其他参数说明
* Text Normalization
是否开启文本标准化(例如日期、固话、金钱等等)
* Batch Inference
设置生成语音数量
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【教程交流】入群探讨各类技术问题、分享应用效果↓