Resemble AI 推出 Chatterbox:首个支持情感夸张控制的开源 TTS 模型
Resemble AI 最近发布了 Chatterbox,这是其首款生产级开源文本转语音(Text-to-Speech,TTS)模型。Chatterbox 在 MIT 许可证下发布,经过严格测试和基准对比,其表现甚至超过了像 ElevenLabs 这样的领先闭源系统,在并排测试中得到了用户的一致好评。 无论你是制作梗图、视频、游戏,还是开发 AI 代理,Chatterbox 都能为你的内容增添生机。它支持情感夸张控制,这一功能使得生成的声音更加独特且具有表现力。此外,Resemble AI 还在 Hugging Face Gradio 应用中提供了 Chatterbox 的试用版本,方便用户快速体验其性能。 对于需要更高精度或扩展性的用户,Resemble AI 提供了具有竞争力的价格的 TTS 服务。该服务不仅能够在低延迟环境下(不到 200 毫秒)稳定运行,还能满足各种生产环境的需求,非常适用于代理、应用程序或互动媒体中的使用。 Chatterbox 的技术支持目前仅限英语,但开发者已经在积极拓展其他语言的支持。为了确保其负责任的使用,Chatterbox 生成的每一个音频文件都包含了 Resemble AI 的珀斯(Perceptual Threshold)水印技术。这种水印不可感知,即使经过 MP3 压缩、音频编辑和常见操作后仍能保持几乎 100% 的检测准确性,有助于防止滥用。 安装方面,Chatterbox 主要在 Python 3.11 和 Debian 11 系统上进行了开发和测试,依赖包的版本在 pyproject.toml 文件中已经固定,确保了代码的一致性和稳定性。你也可以选择从源码进行安装,以便于修改代码或依赖项。具体安装方法和使用示例可以参考 example_tts.py 和 example_vc.py 文件。 Chatterbox 的推出标志着 TTS 领域的一个重要里程碑。它不仅提供了一款高质量的开源工具,还展示了开源社区在人工智能技术上的合作潜力。Resemble AI 也在 Discord 上建立了一个官方社区,鼓励用户加入并共同探索更多可能性。 业内评价方面,许多技术专家认为 Chatterbox 的出现填补了高质量开源 TTS 解决方案的空白,极大地推动了相关领域的创新和发展。Resemble AI 是一家致力于开发先进语音合成技术的初创公司,其技术和产品已经在多个场景中得到成功应用。 总的来说,Chatterbox 的发布不仅提升了开源社区的技术水平,也为开发者提供了一个强大且灵活的工具,推动了 TTS 技术的普及和应用。