Command Palette
Search for a command to run...

摘要
本报告介绍了VibeVoice,这是一种新型模型,通过采用“下一词扩散”(next-token diffusion)技术,实现多说话人长时语音的合成。该方法是一种统一的连续数据建模方式,通过扩散过程自回归地生成潜在向量。为实现这一目标,我们提出了一种新型连续语音分词器。与流行的Encodec模型相比,该分词器在保持相当性能的前提下,实现了80倍的数据压缩率。该分词器在有效保留音频保真度的同时,显著提升了处理长序列的计算效率。因此,VibeVoice能够在最大64K上下文窗口长度下,支持最多4名说话人,合成长达90分钟的长时语音,精准捕捉真实对话中的“氛围”(vibe),其表现超越了现有的开源及专有对话模型。