零样本语音克隆新突破:轻量级文生语音模型Sopro已开源
Sopro 是一个由 Samuel Vitorino 开发的轻量级英语文本转语音(TTS)模型,其名称源自葡萄牙语“呼吸/吹气”,意在体现语音生成的自然流动感。该模型是作者在个人项目中用极低预算训练完成的,仅使用单张 L40S GPU,未采用主流的 Transformer 架构,而是结合了类似 WaveNet 的空洞卷积与轻量级交叉注意力层,以实现高效推理。 尽管 Sopro 在多数语音和场景下尚未达到当前最先进水平(SOTA),但其在资源受限环境下的表现仍具探索价值。模型支持零样本语音克隆,即无需针对特定说话人微调即可模仿新声音。主要功能包括:CLI 命令行调用、Python 接口、非流式与流式生成,以及一个交互式在线演示。 安装方式支持从 PyPI 或 GitHub 仓库直接获取。为保证性能,建议使用特定版本的 PyTorch(如 2.6.0,不带 torchvision),在 M3 芯片设备上可实现约 3 倍性能提升。项目也提供 Docker 镜像,可通过访问 http://localhost:8000 使用网页版演示。 作者坦承,受限于预算,训练数据为预分词的文本和已丢弃原始音频的压缩表示(使用神经编解码器转为离散空间),这导致部分语音细节丢失,影响了声音相似度。未来若能使用原始音频,有望提升说话人嵌入质量。此外,当前生成长度限制在约 32 秒(400 帧),更长输出易出现幻觉。模型仍有优化空间,如卷积状态缓存等。 AI 在该项目中主要用于构建网页界面、整理代码、设计实验和头脑风暴。作者表示希望未来支持更多语言并持续改进模型。如您喜欢此项目,欢迎通过 “Buy Me a Coffee” 链接支持,以获取更多算力资源。项目训练数据和相关贡献者信息已列明。
