HyperAIHyperAI

Command Palette

Search for a command to run...

20 天前
基准
LLM

EVA-Bench Data 2.0发布:3领域121工具213场景

ServiceNow-AI正式发布EVA-Bench Data 2.0,将语音智能体评估基准从单一企业领域扩展至航空客服管理、企业IT服务管理及医疗健康人力资源服务三大核心场景。此次升级覆盖121种工具与213个评估场景,场景覆盖率较首版提升四倍。所有场景均通过OpenAI GPT-5.4、Google Gemini 3.1 Pro及Anthropic Claude Opus 4.6三大前沿模型的可解性验证,确保基准兼具挑战性与公平性。 该数据集严格遵循语音优先、高真实度、强多样性与可复现等设计原则。生成流程采用SyGra图基管线,通过联合构建用户目标、初始数据库与预期终态,彻底消除组件独立生成导致的逻辑冲突。经多轮人工复核与自动化校验,确保每个场景仅存在唯一正确解决路径,并完整涵盖身份验证、多意图交互及对抗性测试等复杂用例。数据集以MIT协议全面开源,开发者可通过Hugging Face平台直接调用。 EVA-Bench 2.0不仅为语音智能体提供覆盖35种以上核心工作流的标准化测试框架,其底层的端到端合成与验证机制更为企业自研评估数据集提供实践参考。官方同步披露多语言适配路线图,计划将评估体系延伸至非英语语境,以全面衡量语音模型在全球化部署中的真实表现与泛化能力。

相关链接

EVA-Bench Data 2.0发布:3领域121工具213场景 | 热门资讯 | HyperAI超神经