Command Palette

Search for a command to run...

8 天前

推理能力的语音评估:诊断模态诱导的性能差距

Yueqian Lin Zhengmian Hu Qinsi Wang Yudong Liu Hengfan Zhang Jayakumar Subramanian Nikos Vlassis Hai Helen Li Yiran Chen

推理能力的语音评估:诊断模态诱导的性能差距

摘要

我们提出语音推理能力评估基准(Voice Evaluation of Reasoning Ability, VERA),用于在实时对话约束条件下评估语音交互系统中的推理能力。VERA 包含 2,931 个源自经典文本基准的原生语音对话片段,按任务类型划分为五个赛道:数学(Math)、网络信息(Web)、科学(Science)、长上下文(Long-Context)和事实性问答(Factual)。每个测试项均针对语音交互进行适配,同时保持原有的推理难度。VERA 支持在模型家族内部进行文本与语音的直接对比,还可用于分析不同架构设计对系统可靠性的影响。我们对 12 个当前主流语音系统与强健的文本基线模型进行了评估,结果揭示出显著且一致的模态差距:在竞赛类数学任务中,领先的文本模型准确率达到 74.8%,而其语音对应版本仅达 6.1%;在各赛道上的宏平均准确率,最佳文本模型为 54.0%,而语音模型仅为 11.3%。延迟-准确率分析表明存在一个低延迟平台——快速语音系统普遍集中在约 10% 的准确率水平,而要接近文本模型的性能,则必须牺牲实时交互能力。诊断性实验显示,常见的缓解策略效果有限:增加“思考时间”带来的提升微乎其微;采用将推理与叙述解耦的级联架构虽能提升准确率,但仍远低于文本模型水平,并引入了典型的语义锚定(grounding)与一致性错误。失败分析进一步揭示了原生流式处理、端到端以及级联式设计在错误模式上存在显著差异。VERA 为那些将“思考”与“表达”解耦的系统架构提供了可复现的测试平台和针对性诊断工具,为衡量向既流畅又可靠的真实语音助手演进的进展,提供了一种系统化、有原则的评估路径。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供