HyperAI超神经
Back to Headlines

NVIDIA Riva TTS 新模型:多语言合成与声音克隆的突破性进展

2 days ago

NVIDIA近期发布了三款先进的Riva TTS模型:Magpie TTS Multilingual、Magpie TTS Zeroshot 和 Magpie TTS Flow,这些模型在多语言实时语音合成方面取得了显著进展。这些创新不仅提升了技术准确性,还改善了用户的体验,推动了跨行业的应用发展。 Magpie TTS Multilingual 支持英语、西班牙语、法语和德语等四种语言,特别适用于需要多语言合成的应用场景。该模型基于流式编码器-解码器变压器架构,可以生成高质量、自然流畅的多语言语音。其延迟低于200毫秒,并采用了偏好对齐框架和无分类器指导(CFG)技术来解决AI生成音频时可能出现的错误或误导性问题。 Magpie TTS Zeroshot 支持英语,主要针对直播电话和游戏非玩家角色 (NPCs)等实时应用场景。该模型能够在输入一个五秒的音频样本后,准确克隆目标说话人的声音。类似于Multilingual版本,Zeroshot也采用了偏好对齐框架和CFG技术,进一步提升语音合成的自然度和准确性。在人类评估中,它在自然度(MOS)和说话人相似度(SMOS)方面取得了最高评分。 Magpie TTS Flow 主要用于工作室配音和播客朗读等高质量语音合成需求。该模型引入了一种新的对齐感知预训练框架,将离散语音单元(如HuBERT生成的序列)与非自回归训练框架(E2 TTS)结合,以学习文本和语音的对齐关系。这种设计使得该模型在少量标注数据的情况下也能快速收敛,从而实现更高的发音准确率(WER)和说话人相似度(SECS-O)。模型在预训练阶段使用未标注的语音数据,而在微调阶段则结合标注数据中的文本嵌入生成目标说话人的语音。 与开源模型相比,这三款NVIDIA TTS模型在更少的数据训练下,实现了更低的字符错误率(CER)和单词错误率(WER),并在人类评估中获得了最高的自然度和说话人相似度得分。Magpie TTS Flow 特别适合低资源语言,因为它可以通过添加语言ID来学习多种语言的对齐关系,使其成为强大的多语言语音合成系统。实验结果显示,使用不到1000小时的配对数据即可达到优异性能,而发布的Riva模型则是基于大约70,000小时的配对数据进一步优化的。 为了应对合成语音带来的安全风险,NVIDIA加入了“可信AI”计划,与领先的深度伪造和语音检测公司如Pindrop合作,提供早期访问Riva Magpie TTS模型。Pindrop的技术广泛应用于银行、金融服务、大型呼叫中心、零售、公用事业和保险等行业,通过实时语音认证和深伪检测来防范欺诈和伪装行为。这种合作为合成语音的安全部署设定了重要标准,特别是在呼叫中心和媒体完整性等高风险领域,确保了负责任的AI发展。 NVIDIA Riva Magpie TTS 模型以其灵活的架构和卓越的性能,为医疗保健、无障碍技术和任何需要类人实时语音交互的应用提供了理想选择。这些模型能够生成具有丰富情感的、高度自然且准确的音频,适应不同的说话人和内容,标志着语音合成技术的重要突破。

Related Links