HyperAI超神经

6 个月前

Sopro 是一个由 Samuel Vitorino 开发的轻量级英语文本转语音（TTS）模型，其名称源自葡萄牙语“呼吸/吹气”，意在体现语音生成的自然流动感。该模型是作者在个人项目中用极低预算训练完成的，仅使用单张 L40S GPU，未采用主流的 Transformer 架构，而是结合了类似 WaveNet 的空洞卷积与轻量级交叉注意力层，以实现高效推理。尽管 Sopro 在多数语音和场景下尚未达到当前最先进水平（SOTA），但其在资源受限环境下的表现仍具探索价值。模型支持零样本语音克隆，即无需针对特定说话人微调即可模仿新声音。主要功能包括：CLI 命令行调用、Python 接口、非流式与流式生成，以及一个交互式在线演示。安装方式支持从 PyPI 或 GitHub 仓库直接获取。为保证性能，建议使用特定版本的 PyTorch（如 2.6.0，不带 torchvision），在 M3 芯片设备上可实现约 3 倍性能提升。项目也提供 Docker 镜像，可通过访问 http://localhost:8000 使用网页版演示。作者坦承，受限于预算，训练数据为预分词的文本和已丢弃原始音频的压缩表示（使用神经编解码器转为离散空间），这导致部分语音细节丢失，影响了声音相似度。未来若能使用原始音频，有望提升说话人嵌入质量。此外，当前生成长度限制在约 32 秒（400 帧），更长输出易出现幻觉。模型仍有优化空间，如卷积状态缓存等。 AI 在该项目中主要用于构建网页界面、整理代码、设计实验和头脑风暴。作者表示希望未来支持更多语言并持续改进模型。如您喜欢此项目，欢迎通过 “Buy Me a Coffee” 链接支持，以获取更多算力资源。项目训练数据和相关贡献者信息已列明。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

Command Palette

零样本语音克隆新突破：轻量级文生语音模型Sopro已开源

相关链接

Command Palette

零样本语音克隆新突破：轻量级文生语音模型Sopro已开源

相关链接

Command Palette

零样本语音克隆新突破：轻量级文生语音模型Sopro已开源

相关链接

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集