法国 AI 实验室推出 Unmute:10秒定制语音,革新超低延迟对话体验
近日,法国 AI 实验室 Kyutai 推出了一款名为 Unmute 的革命性语音 AI 系统,为现有的文本大语言模型(LLM)提供强大的语音交互能力。这一系统的发布,标志着 AI 对话进入了超低延迟的时代,引发了广泛的关注与讨论。 Unmute 最显著的特点是其高度模块化的架构。开发者无需从头开始训练新的模型,只需要将 Unmute “包裹”在现有的文本 LLM 上,就能为其迅速添加语音输入(语音转文本,STT)和语音输出(文本转语音,TTS)的功能。这种设计不仅保留了原有模型的推理能力、知识储备和调优特点,还使得语音交互更加自然流畅。模块化的设计使得开发者可以轻松地在多个项目中应用 Unmute,大大提高了效率。 同时,Unmute 在智能对话体验方面实现了显著的改进: * 智能判断与接话:Unmute 能精准判断用户是否完成发言,并在合适的时间点进行回应,模拟真实的对话节奏。 * 随时打断:用户可以在任何时候打断 AI 的回答,增加了对话的灵活性和自然度。 * 文本流式合成:Unmute 可在文本生成尚未完成时就开始语音合成,极大地降低了响应延迟,让实时对话更加顺畅。 * 个性化定制:10秒打造专属声音 Unmute 的另一大创新在于其个性化的语音定制功能。用户只需提供10秒的语音样本,系统就能生成高度个性化的 AI 声音,适应不同的应用场景。无论是模仿特定角色的语气,还是调整语音的音调和语速,Unmute 都能轻松实现,为用户提供了多样化的交互选择。 Kyutai 宣布,Unmute 的相关模型和代码将在未来几周内完全开源。这一决定预计将大幅推动语音 AI 技术的普及与创新,吸引更多全球开发者参与其中。在此之前,Kyutai 曾推出的音频原生模型 Moshi 也因其技术创新引起了广泛关注,而 Unmute 则进一步巩固了其在语音 AI 领域的领先地位。 Kyutai 是一家专注于音频和语音技术的 AI 实验室,多次因其创新性产品和技术走在行业前沿。此次发布的 Unmute 不仅展示了其在技术上的深厚积累,也为全球开发者和企业带来了新的机遇。