HyperAI

6 个月前

VibeVoice 是一款前沿的开源文本转语音（TTS）模型，专为生成富有表现力、长时长、多说话人的对话式音频（如播客）而设计。它有效解决了传统TTS系统在可扩展性、说话人一致性以及自然对话轮换方面的关键挑战。 VibeVoice的核心创新在于采用超低帧率（7.5 Hz）的连续语音分词器，包括声学与语义分词器，能够在极低计算开销下高效保留音频保真度，大幅提升长序列语音处理的效率。该模型结合了大语言模型（LLM）与扩散生成机制：LLM负责理解文本语境与对话逻辑，扩散头则精准生成高质量的语音细节，实现自然流畅的语音合成。相比以往多为1至2名说话人的限制，VibeVoice可支持最多4位不同说话人，合成长达90分钟的连贯对话音频，显著拓展了TTS在真实场景中的应用边界。其主要能力包括：上下文感知的情感表达，能根据语境自然调整语调与情绪；支持带背景音乐的播客合成，实现更丰富的听觉体验；具备跨语言合成能力，可处理多种语言混合场景；并能生成长篇、多角色、自然交互的对话式语音内容。 VibeVoice为内容创作、有声书、虚拟主播、教育辅助等领域提供了强大工具，标志着开源TTS技术向更自然、更智能、更实用方向迈出关键一步。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

VibeVoice：开启开源文本转语音新纪元

相关链接

Command Palette

VibeVoice：开启开源文本转语音新纪元

相关链接

Command Palette

VibeVoice：开启开源文本转语音新纪元

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟