VibeVoice:开启开源文本转语音新纪元
6 天前
VibeVoice 是一款前沿的开源文本转语音(TTS)模型,专为生成富有表现力、长时长、多说话人的对话式音频(如播客)而设计。它有效解决了传统TTS系统在可扩展性、说话人一致性以及自然对话轮换方面的关键挑战。 VibeVoice的核心创新在于采用超低帧率(7.5 Hz)的连续语音分词器,包括声学与语义分词器,能够在极低计算开销下高效保留音频保真度,大幅提升长序列语音处理的效率。该模型结合了大语言模型(LLM)与扩散生成机制:LLM负责理解文本语境与对话逻辑,扩散头则精准生成高质量的语音细节,实现自然流畅的语音合成。 相比以往多为1至2名说话人的限制,VibeVoice可支持最多4位不同说话人,合成长达90分钟的连贯对话音频,显著拓展了TTS在真实场景中的应用边界。 其主要能力包括:上下文感知的情感表达,能根据语境自然调整语调与情绪;支持带背景音乐的播客合成,实现更丰富的听觉体验;具备跨语言合成能力,可处理多种语言混合场景;并能生成长篇、多角色、自然交互的对话式语音内容。 VibeVoice为内容创作、有声书、虚拟主播、教育辅助等领域提供了强大工具,标志着开源TTS技术向更自然、更智能、更实用方向迈出关键一步。