Command Palette
Search for a command to run...
EVA-Bench:评估语音智能体的全新端到端框架
EVA-Bench:评估语音智能体的全新端到端框架
摘要
语音智能体,即通过口语对话完成任务的人工智能系统,正越来越多地部署于企业应用中。然而,现有基准测试均未能同时应对两大核心评估挑战:生成逼真的模拟对话,以及全面衡量语音特有的各类失效模式。我们提出EVA-Bench,一个端到端的评估框架,旨在解决上述两个问题。在模拟方面,EVA-Bench通过动态多轮对话编排机器人之间的音频对话,并具备自动模拟验证功能,可检测用户模拟器错误,并在评分前恰当地重新生成对话。在测量方面,EVA-Bench引入两个复合指标:EVA-A(准确性),涵盖任务完成度、忠实度及音频级语音保真度;以及EVA-X(体验),涵盖对话推进、口语简洁性和话轮转换时机。这两个指标适用于所有主流智能体架构,可实现跨架构的直接比较。EVA-Bench包含三个企业领域的213个场景、一个用于评估口音和噪声鲁棒性的受控扰动套件,以及区分峰值能力与可靠能力的pass@1、pass@k、pass^k测量指标。在涵盖全部三种架构的12个系统中,我们发现:(1)没有系统能同时在EVA−Apass @1和EVA−Xpass @1;上超过0.5;(2)峰值性能与可靠性能差异显著(EVA-A上pass@k与pass^k的中位差距为0.44);(3)口音和噪声扰动暴露出显著的鲁棒性差距,其影响因架构、系统和指标而异(平均Δ最高达0.314)。我们以开源许可发布完整框架、评估套件及基准数据。
一句话总结
ServiceNow 的 EVA-Bench 框架通过经过验证的 bot-to-bot 音频对话和复合指标 EVA−Apass @1(准确度)和 egin{array} { r } { \mathsf { E V A - X } _ { \mathsf { p a s s } \ @ 1 } ; } \end{array}(体验)来评估语音 agent,应用于 213 个企业场景和 12 个系统,发现没有系统在两者上均超过 0.5,并揭示了在口音/噪声扰动下的鲁棒性差距;该框架是开源的。
核心贡献
- EVA-Bench 提供了一个验证门控的 bot-to-bot 模拟框架,能够自动检测用户模拟器错误并重新生成对话,确保为语音 agent 评估提供可靠的多轮音频交互。
- 它定义了两个复合指标:EVA-A(准确度)用于任务完成、忠实度和音频级语音保真度,以及 EVA-X(体验)用于对话进展、口语简洁性和轮流发言时机,从而能够直接比较所有主要 agent 架构。
- 该基准包含跨三个领域的 213 个企业场景,一个用于口音和噪声鲁棒性的受控扰动套件,以及多试验一致性指标(pass@1、pass@k、pass^k),以区分峰值性能和可靠性能。
引言
语音 agent 必须处理在文本中没有直接对应的约束条件下的口语对话,例如短暂的线性语音、实时的轮流发言以及变化的声学条件。现有的基于文本的基准无法捕捉关键的语音特定故障模式,如策略违规或口语实体错误,而先前的语音基准依赖于脚本化或单轮交互,缺乏经过验证的模拟一致性或全面的质量测量。作者引入 EVA-Bench,这是一个端到端的评估框架,使用带验证门控的 bot-to-bot 模拟和受控的声学扰动,并定义了联合准确度(EVA-A)和体验(EVA-X)指标,从而能够在相同条件下对级联和音频原生的语音 agent 进行严格比较。
数据集
EVA-Bench 数据集是一个专门构建的基准,用于评估面向任务的企业场景中的语音 agent。它旨在在受控的声学和行为条件下暴露语音特定的故障(例如听错的代码或名称)。
-
组成和来源:
-
三个领域:航空客户服务管理 (CSM)、医疗保健人力资源服务交付 (HRSD)、企业 IT 服务管理 (ITSM)。
-
每个领域包含多个场景,每个场景聚焦于一个高接触任务,例如航班重新预订。
-
一个场景包括一个带有明确约束和决策树的用户目标、一个用户画像(说话风格、耐心程度)、一个 agent 工具可以查询和修改的场景数据库,以及指示预期最终数据库状态的真值。
-
关键细节和过滤规则:
-
场景由作者手工制作,以反映现实的企业用例;未提及外部来源。
-
选择强调用户最有可能致电 agent 的任务,并包含在口语交互中常被听错的实体(确认码、ID、名称)。
-
决策树消除了歧义,使评估可重复。
-
文本未提供确切的场景数量;完整的构建细节见附录 C。
-
数据集的使用方式:
-
EVA-Bench 作为仅评估基准,而非训练集。
-
作者进行完全自动化的 bot-to-bot 对话:用户模拟器获取场景的目标、决策树和画像,并通过实时音频 WebSocket 与 agent 通信。
-
双方仅通过音频交互,使得该基准与级联和音频原生架构兼容。
-
扰动套件独立地变化声学因素(口音、背景噪声、连接质量)和行为因素(个性、说话风格),以隔离每个因素的影响。
-
处理和验证:
-
每个模拟对话在计算指标之前自动进行验证。
-
“用户行为保真度”使用 LLM-as-Judge 来验证模拟器遵循了预期的用户目标。
-
“用户语音保真度”使用几乎相同的 LLM-as-Judge 来检查口语音频与预期内容匹配。
-
未通过任一检查的对话将被重新生成;大约 12% 的试验需要重新运行,几乎完全由于用户行为漂移。
方法
作者提出 EVA-Bench,一个通过完全自动化的多轮 bot-to-bot 对话来评估语音 agent 的综合框架。整体架构通过实时 WebSocket 编排并行音频会话,从而能够在相同条件下评估级联和音频原生架构。
整体框架如下所示:
模拟过程从特定的输入和条件开始。系统利用一个企业场景数据集,涵盖航空客户服务管理、医疗保健 HR 服务交付和企业 IT 服务管理等领域。每个场景提供一个带有明确约束的用户目标、一个消除歧义的决策树和一个场景数据库。该框架还应用受控扰动,独立地变化声学条件(如口音和背景噪声)以及行为条件(如个性和说话风格),以解开它们对 agent 性能的影响。
在对话模拟期间,一个配置了场景特定目标、画像和对话式文本转语音声音的用户模拟器与被测的语音 Agent 交互。该语音 Agent 支持多种架构,包括级联和音频原生管道。一个确定性的工具执行器处理所有 agent 工具调用,修改试验特定的环境。
在计算任何评估指标之前,完成的对话通过一个自动化的模拟验证阶段。该模块使用两个主要评判器检查每个试验的对话伪影。用户行为保真度使用 LLM-as-Judge 来验证模拟器忠实地执行了其分配的目标而没有偏差。用户语音保真度使用 LALM-as-Judge 来确保模拟器的口语音频准确地传达了其预期内容。未通过这些检查的对话将被自动重新生成,确保评估分数反映的是 agent 行为而非模拟器伪影。
有效的对话随后进入语音 Agent 质量测量阶段,该阶段跨三个分层指标类别评估性能。EVA-A 通过任务完成(通过确定性的数据库状态哈希)、忠实度(使用 LLM-as-Judge 确保行动基于指令和工具结果)和语音保真度(验证高风险命名实体的准确口语复现)来衡量准确度。EVA-X 通过评估对话进展、简洁性和轮流发言(使用基于时间戳的评分来衡量打断和延迟)来评估体验。此外,诊断指标提供细粒度的故障分析,例如验证关键实体的转录准确度。
为了捕捉平均和一致性能,作者将这些指标聚合为 pass@1、pass@k 和 pass^k 分数。一个对话在某个维度上通过,仅当每个指标都达到其特定阈值 τm。例如,通过准确度要求任务完成等于 1.0,忠实度 ≥0.5,语音保真度 ≥0.95。pass@1 指标衡量跨试验的平均性能,pass@k 通过检查 k 次试验中是否至少有一次通过来衡量峰值性能,而 pass^k 通过计算系统通过所有 k 次独立试验的概率来衡量可靠性。
实验
该评估使用 EVA-Bench 在清洁和扰动条件下(带口音的语音、背景噪声以及两者兼有)比较了 12 个语音 agent 系统(级联、混合和语音到语音),并通过可靠性检查确认指标分数反映了真实的行为差异而非评判器噪声。没有系统在准确度和体验上同时表现出色,揭示了级联架构中明显的准确度-体验权衡,而语音到语音模型在轮流发言方面领先,但在噪声下体验下降。鲁棒性分析显示了不同的故障模式:级联系统容易因口音语音和噪声导致准确度下降,而语音到语音系统在噪声下遭遇故障。故障分析将转录准确度确定为级联任务完成的关键瓶颈,并且忠实度问题与任务成功解耦,强调了独立评估维度的必要性。
EVA-Bench 是唯一一个结合了实时多轮模拟、真实音频和跨语音到语音及级联架构的全面指标的评估框架,从而能够进行详细的故障分析。实验表明,级联系统表现出高度可变的鲁棒性,关键实体的转录准确度与任务完成强相关,而语音到语音系统在轮流发言方面领先,但在策略遵循方面落后。即使在技术上成功的对话中,忠实度故障也很常见,且轮流发言是对扰动最敏感的指标。轮流发言是对扰动最敏感的指标,绝大多数测量显示出显著退化,凸显了对话时机的脆弱性。忠实度故障普遍存在:即使任务完成,超过三分之二的对话包含策略偏差或幻觉,这促使了独立的忠实度评估。对于级联系统,关键实体的转录准确度是任务完成的强预测因子,低于阈值的准确度导致成功率大幅降低。
没有系统在准确度和体验 pass@1 上同时达到 0.5,且仅有一个系统在两者上超过 0.4。级联系统显示出明显的准确度-体验权衡,最高准确度的级联系统产生超过 5 秒的工具调用延迟,而低延迟的级联系统则损失准确度,且没有级联系统在两个轴上超过 0.25。峰值单次试验通过率(pass@k)大幅高估了可靠性,当要求五次连续正确试验(pass^k)时,中位下降为 0.44 点。仅 GPT-Realtime-1.5 在 EVA-A 和 EVA-X pass@1 上均超过 0.4,得分分别为 0.47 和 0.57。轮流发言得分按架构清晰区分:语音到语音系统达到 0.82–0.83,而级联系统跨度为 0.28–0.58。三个最准确的级联系统具有超过 5 秒的工具调用轮次延迟,而两个较快的级联系统保持在 2.7 秒以下但准确度较低。没有级联系统在准确度和体验上均超过 0.25,且置信区间不重叠。所有系统中峰值 pass@k 与可靠 pass^k 之间的中位差距在准确度上为 0.44,表明单次试验分数高估了部署就绪度。语音保真度保持较高(均值 ≥0.954),但故障主要涉及字母数字实体的错误发音。
EVA-Bench 是一个具有真实音频的实时多轮评估框架,用于比较语音到语音和级联架构。实验揭示级联系统具有可变的鲁棒性,关键实体的转录准确度可预测任务完成,而语音到语音模型在轮流发言方面表现出色但常偏离策略。即使在成功的对话中,忠实度故障也很常见,轮流发言对扰动高度敏感,且没有系统同时实现高准确度和良好体验;级联系统面临准确度与延迟之间的权衡,单次试验分数高估了部署就绪度。