Voila：用于实时自主交互和语音角色扮演的语音-语言基础模型

Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu

发布日期: 5/12/2025

摘要

一种能够无缝融入日常生活的语音人工智能代理将以自主、实时且情感丰富的方式与人类互动。它不仅会响应命令，还会持续监听、推理并主动回应，从而促进流畅、动态且情感共鸣的交流。我们介绍了一种名为Voila的大型语音语言基础模型系列，该系列朝着这一愿景迈出了重要一步。Voila突破了传统管道系统的限制，采用了新的端到端架构，实现了全双工、低延迟的对话，同时保留了丰富的声学细节，如音调、节奏和情感。其响应延迟仅为195毫秒，超过了平均的人类反应时间。Voila的分层多尺度Transformer将大型语言模型（LLMs）的推理能力与强大的声学建模相结合，支持自然且具有个性化的语音生成——用户只需编写文本指令即可定义说话人的身份、语气和其他特征。此外，Voila支持超过一百万个预构建的语音库，并能从短短10秒的音频样本中高效定制新声音。除了口语对话外，Voila还被设计为适用于广泛基于语音的应用程序的统一模型，包括自动语音识别（ASR）、文本转语音（TTS），以及通过最小适应实现的多语言语音翻译。Voila已完全开源，以支持开放研究并加速下一代人机交互的发展。

查看论文详情 View Code