HyperAI超神经

通过连续潜在空间中的能量距离实现高效的语音语言建模

Zhengrui Ma, Yang Feng, Chenze Shao, Fandong Meng, Jie Zhou, Min Zhang
发布日期: 5/21/2025
通过连续潜在空间中的能量距离实现高效的语音语言建模
摘要

我们介绍了一种名为SLED的替代方法,用于语音语言建模。该方法通过将语音波形编码为连续潜在表示的序列,并使用能量距离目标自回归地对这些序列进行建模。能量距离提供了一种分析性的分布差距度量,通过对比模拟样本和目标样本,能够实现高效训练以捕捉底层的连续自回归分布。通过绕过残差向量量化(residual vector quantization)的依赖,SLED避免了离散化误差,并消除了现有语音语言模型中常见的复杂层次架构的需求。它简化了整体建模流程,同时保留了语音信息的丰富性并保持了推理效率。实证结果表明,SLED在零样本和流式语音合成中均表现出强大的性能,展示了其在通用语音语言模型中的广泛应用潜力。