HyperAI超神经
Back to Headlines

红杉中国推出xbench:精准评估AI在真实世界中的生产力与专业价值

3 days ago

近期,红杉中国宣布推出名为 xbench 的全新基准测试平台,旨在评估人工智能(AGI)在现实世界中的生产力及性能表现。这一举措发生在 AGI 快速发展的背景下,传统的静态评估方法已经无法充分反映模型在实际应用场景中的性能变化。xbench 包含两个核心部分:xbench-ScienceQA 和 xbench-DeepSearch。 首先介绍的是 xbench-ScienceQA。该测试主要用于评估 AGI 模型在研究水平上的知识认知能力和推理能力,所涵盖的试题由知名机构、高等教育难题以及搜索信息上精确无误且答案明确的高质量题目组成,并计划每季度更新一次,确保题目的公正性、区分度以及准确性,同时设有有效的检测机制。试题内容涉及面广,要求测试模型具备多领域的综合理解能力。例如,如何在医学、化学等领域找到最新的研究成果或合理解释复杂现象。 另一重要部分为 xbench-DeepSearch。与 ScienceQA 不同,它侧重于评估 AGI 在自主规划、信息采集、推理分析以及总结整理方面的能力,特别是在中文互联网环境下进行了优化适配。为了验证模型的实际应用价值,xbench-DeepSearch 采用了“职业对齐”(Profession-Aligned)的评估标准,即将 AI 视为一名“数字员工”,考察其在日常业务流程中所能发挥的作用。评估的核心并非解决方案本身,而是交付的结果和商业价值。团队希望这种基于真实业务场景的职业评测标准能为建立具有明确业务价值的评估指标提供支持。通过动态更新测评内容,确保了模型在快速变化的市场中仍能够保持高效的实用性和相关性。 对于 AGI Tracking 评估集合,xbench 寄托于延续学界已有特色的评价方法,如第三方、黑白盒、实时性(Live)等方面的评测。同时,针对资源和时间限制,团队设计了一种可以动态扩展的评估机制,“青藤评估”正是为此而生。而对于 Profession-Aligned 评测部分,团队则力求建立一个及时收集任务的系统,邀请各行各业的专业人士共同构建和维护动态更新的职业评估包。通过这种方式,人们不仅能看到模型排名之外的发展速度和技术突破,还能判断这些进展是否达到了市场可落地的标准,并了解它们何时能够在当前业务流程中接管工作并提供标准化服务。 业内人士表示,红杉中国的这项创举具有里程碑式的意义,不仅为 AI 能力的评估提供了更加科学和全面的标准,也促进了学术界与产业界的深度合作,对于加速 AGI 技术的商业化进程有着深远的影响。作为国内顶级的投资机构之一,红杉中国一直关注科技创新领域,在推动前沿技术发展方面展现了前瞻性的布局。此次推出 xbench,再次证明了其在全球范围内引领技术创新风向的地位和作用。

Related Links