HyperAI

20 天前

ServiceNow-AI正式发布EVA-Bench Data 2.0，将语音智能体评估基准从单一企业领域扩展至航空客服管理、企业IT服务管理及医疗健康人力资源服务三大核心场景。此次升级覆盖121种工具与213个评估场景，场景覆盖率较首版提升四倍。所有场景均通过OpenAI GPT-5.4、Google Gemini 3.1 Pro及Anthropic Claude Opus 4.6三大前沿模型的可解性验证，确保基准兼具挑战性与公平性。该数据集严格遵循语音优先、高真实度、强多样性与可复现等设计原则。生成流程采用SyGra图基管线，通过联合构建用户目标、初始数据库与预期终态，彻底消除组件独立生成导致的逻辑冲突。经多轮人工复核与自动化校验，确保每个场景仅存在唯一正确解决路径，并完整涵盖身份验证、多意图交互及对抗性测试等复杂用例。数据集以MIT协议全面开源，开发者可通过Hugging Face平台直接调用。 EVA-Bench 2.0不仅为语音智能体提供覆盖35种以上核心工作流的标准化测试框架，其底层的端到端合成与验证机制更为企业自研评估数据集提供实践参考。官方同步披露多语言适配路线图，计划将评估体系延伸至非英语语境，以全面衡量语音模型在全球化部署中的真实表现与泛化能力。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

Command Palette

EVA-Bench Data 2.0发布：3领域121工具213场景

相关链接

Command Palette

EVA-Bench Data 2.0发布：3领域121工具213场景

相关链接

Command Palette

EVA-Bench Data 2.0发布：3领域121工具213场景

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%