一、教程简介

Kyutai TTS 1.6B（en-fr）是由 Kyutai 团队于 2024 年 10 月 15 日发布的英法双语语音大模型。在流式 TTS 专项评测中，该模型在「长文本实时输出」和「双语韵律自然度」类别上分别比「传统离线 TTS」效率提升 75% 和 42% 。它还在 Moshi Benchmark 和 Audio-Language Alignment Dataset 等 TTS 基准测试中获得了最先进的性能。此外，该模型还展示了以前系统中很少见的功能，包括输入即输出的流式生成、英法双语零样本切换、基于预计算嵌入的语音选择以及动态调整音频 token 数量的快速推理。相关论文成果为 Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling。

本教程采用资源为单卡 RTX 4090 。仅支持英语和法语。

引用信息

@techreport{kyutai2025streaming, title={Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling}, author={Neil Zeghidour and Eugene Kharitonov and Manu Orsini and Václav Volhejn and Gabriel de Marmiesse and Edouard Grave and Patrick Pérez and Laurent Mazaré and Alexandre Défossez}, year={2025}, eprint={2509.08753}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.08753}, }

HyperAI

运行此教程在 Discord 上讨论

日期

6 个月前

标签

论文 URL

许可证

Apache 2.0

GitHub

kyutai-labs/delayed-streams-modeling3.0k

一、教程简介

本教程采用资源为单卡 RTX 4090 。仅支持英语和法语。

二、项目示例

standard-tts

streaming-tts

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

若显示「Bad Gateway」，这表示模型正在初始化，请等待约 2-3 分钟后刷新页面。使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

@techreport{kyutai2025streaming,
      title={Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling}, 
      author={Neil Zeghidour and Eugene Kharitonov and Manu Orsini and Václav Volhejn and Gabriel de Marmiesse and Edouard Grave and Patrick Pérez and Laurent Mazaré and Alexandre Défossez},
      year={2025},
      eprint={2509.08753},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2509.08753}, 
}

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

教程概览

级别

入门

主题

音频生成式 AI

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

一、教程简介

本教程采用资源为单卡 RTX 4090 。仅支持英语和法语。

引用信息

Command Palette

kyutai-tts-1.6 b-en_fr 音频生成

一、教程简介