Voila:用于实时自主交互和语音角色扮演的语音-语言基础模型
Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu
发布日期: 5/12/2025

摘要
一种能够无缝融入日常生活的语音人工智能代理将以自主、实时且情感丰富的方式与人类互动。它不仅会响应命令,还会持续监听、推理并主动回应,从而促进流畅、动态且情感共鸣的交流。我们介绍了一种名为Voila的大型语音语言基础模型系列,该系列朝着这一愿景迈出了重要一步。Voila突破了传统管道系统的限制,采用了新的端到端架构,实现了全双工、低延迟的对话,同时保留了丰富的声学细节,如音调、节奏和情感。其响应延迟仅为195毫秒,超过了平均的人类反应时间。Voila的分层多尺度Transformer将大型语言模型(LLMs)的推理能力与强大的声学建模相结合,支持自然且具有个性化的语音生成——用户只需编写文本指令即可定义说话人的身份、语气和其他特征。此外,Voila支持超过一百万个预构建的语音库,并能从短短10秒的音频样本中高效定制新声音。除了口语对话外,Voila还被设计为适用于广泛基于语音的应用程序的统一模型,包括自动语音识别(ASR)、文本转语音(TTS),以及通过最小适应实现的多语言语音翻译。Voila已完全开源,以支持开放研究并加速下一代人机交互的发展。