OpenAudio-s1-mini:高效文本转语音生成工具
一、教程简介

OpenAudio-S1-mini 是由 Fish Audio 团队于 2025 年 5 月 26 日发布的开源文本转语音(TTS)模型。这是一种在自然语言处理任务中表现卓越的神经网络结构。同时,它还使用了多任务学习方法和先进的神经网络声码器,以实现高质量的语音合成。该项目支持包括中文在内的多种主流语言,使得用户在跨文化交流中能够自如地表达自己。仅需 15 秒的音频样本,便能迅速实现声音克隆,生成与目标声音高度相似的语音。
本教程采用资源为单卡 RTX 4090 。
二、项目示例
文本转语音

三、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后,即可使用模型
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 1-2 分钟后刷新页面。 使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。
使用步骤
2.1 文本转音频

参数说明:
- Advanced Config:
- Iterative Prompt Length:迭代提示长度,0 表示关闭,非零值控制迭代生成语音时每次使用的提示文本长度。
- Maximum tokens per batch:每批次最大令牌数,0 表示无限制,非零值限制每批处理的最大令牌数。
- Top – P:核采样概率,控制生成文本的多样性和确定性。
- Repetition Penalty:重复惩罚系数,用于控制生成文本中重复内容的频率,值越大越避免重复。
- Temperature:温度系数,调节生成文本的随机性,值越大越随机。
- Seed:随机种子,用于固定随机数生成,保证结果可复现。
- Reference Audio:
- Use Memory Cache:选择是否使用内存缓存。
- Reference Audio:上传音频文件(wav 文件),是被用作参考的音色内容。
- Reference Text:输入上传的音频的文本内容。
四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息
本项目引用信息如下:
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}