HyperAI超神经

VITA-Audio:用于高效大规模语音语言模型的快速交错跨模态标记生成

Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun
发布日期: 5/13/2025
VITA-Audio:用于高效大规模语音语言模型的快速交错跨模态标记生成
摘要

随着对自然人机交互需求的不断增长,基于语音的系统因其在日常交流中是最常见的沟通形式之一而受到越来越多的关注。然而,现有的语音模型在流式传输过程中生成首个音频标记时仍面临较高的延迟问题,这成为其部署的重要瓶颈。为了解决这一问题,我们提出了VITA-Audio,这是一种端到端的大规模语音模型,能够快速生成音频和文本标记。具体而言,我们引入了一种轻量级的多模态标记预测(Multiple Cross-modal Token Prediction, MCTP)模块,该模块能够在单次前向传递中高效生成多个音频标记,不仅加速了推理过程,还在流式场景下显著降低了生成首个音频的延迟。此外,我们探索了一种四阶段渐进训练策略,在几乎不损失语音质量的前提下实现模型加速。据我们所知,VITA-Audio是第一个能够在首次前向传递中生成音频输出的多模态大规模语言模型,实现了低延迟下的实时对话能力。VITA-Audio完全可复现,并且仅使用开源数据进行训练。实验结果表明,在70亿参数规模下,我们的模型实现了3~5倍的推理加速,并且在自动语音识别(ASR)、文本转语音(TTS)和口语问答(SQA)等多个基准测试任务上显著优于相同规模的开源模型。