Command Palette
Search for a command to run...
Yueqian Lin Zhengmian Hu Qinsi Wang Yudong Liu Hengfan Zhang Jayakumar Subramanian Nikos Vlassis Hai Helen Li Yiran Chen

摘要
我们提出语音推理能力评估基准(Voice Evaluation of Reasoning Ability, VERA),用于在实时对话约束条件下评估语音交互系统中的推理能力。VERA 包含 2,931 个源自经典文本基准的原生语音对话片段,按任务类型划分为五个赛道:数学(Math)、网络信息(Web)、科学(Science)、长上下文(Long-Context)和事实性问答(Factual)。每个测试项均针对语音交互进行适配,同时保持原有的推理难度。VERA 支持在模型家族内部进行文本与语音的直接对比,还可用于分析不同架构设计对系统可靠性的影响。我们对 12 个当前主流语音系统与强健的文本基线模型进行了评估,结果揭示出显著且一致的模态差距:在竞赛类数学任务中,领先的文本模型准确率达到 74.8%,而其语音对应版本仅达 6.1%;在各赛道上的宏平均准确率,最佳文本模型为 54.0%,而语音模型仅为 11.3%。延迟-准确率分析表明存在一个低延迟平台——快速语音系统普遍集中在约 10% 的准确率水平,而要接近文本模型的性能,则必须牺牲实时交互能力。诊断性实验显示,常见的缓解策略效果有限:增加“思考时间”带来的提升微乎其微;采用将推理与叙述解耦的级联架构虽能提升准确率,但仍远低于文本模型水平,并引入了典型的语义锚定(grounding)与一致性错误。失败分析进一步揭示了原生流式处理、端到端以及级联式设计在错误模式上存在显著差异。VERA 为那些将“思考”与“表达”解耦的系统架构提供了可复现的测试平台和针对性诊断工具,为衡量向既流畅又可靠的真实语音助手演进的进展,提供了一种系统化、有原则的评估路径。