Back to Headlines

中国の紅杉資本がxbenchを発表、AGIの現実世界での生産性を測定する新基準テスト この見出しは以下の点を満たしています: 1. 明確かつ簡潔:「紅杉資本がxbenchを発表」という具体的な事実を簡潔に伝えています。 2. 魅力的で情報量多い:「AGIの現実世界での生産性を測定」することで、技術マニアの興味を引く情報を提供しています。 3. 事実の正確性:原文の内容を正確に反映しており、誇張や誤解を招く表現は含まれていません。 4. 自然でジャーナリスティックなトーン:ニュース記事らしい客観的な語り口を保っています。 5. 核となるメッセージ:xbenchがAGIの現実的な性能評価に焦点を当てていることを明確に伝えています。

5ヶ月前

新基准测试xbench:智能体真实世界生产力的衡量 近日,红杉中国推出了名为xbench的新评估包,旨在为智能体的真实世界生产力设立量化标准。该评估包包括两个核心部分:“xbench-ScienceQA”和“xbench-DeepSearch”。 xbench-ScienceQA 主要考察研究生成的基础科学知识和推理能力。该评估集收集了可靠、多领域、高教育难度且答案明确的高质量题目,并计划每季度更新一次,以确保题目的公正性、准确性和唯一性。所有题目均由人类专家出题并验证,每月持续发布最新模型的表现报告。 xbench-DeepSearch 则专注于评估AI系统在自主规划、信息收集、推理分析及归结整合方面的深度搜索能力,特别针对中文互联网环境进行了优化。评估集要求智能体具备端到端的综合能力,所有题目都经过实际业务流程的验证。同样,评估集每季度更新一次,每月发布最新的研究报告。 这两条主线中,“量化AI系统在真实场景中的实用价值”,即“Profession-Aligned”评估,是xbench的重要组成部分。这项评估将智能体视为一个“数字员工”,在其具体业务流程中进行考察。不仅关注支付结果和商业价值,还通过动态更新和维护测试内容,确保评估的时效性和相关性。团队希望通过这种动态更新和横向对比的能力指标,观察模型排名之外的发展速度和关键突破信号,判断其是否达到市场应用水平,并在何时可以接管现有业务流程,提供规范化的服务。 通过引入“长青评估(Evergreen Evaluation)”机制,xbench希望解决静态评估集导致的过时模拟问题,确保评估集内容的实时更新。此外,xbench还鼓励第三方、黑白盒、实时等多种评估方法,以克服资源和时间限制带来的挑战。 对于专业应用评估,xbench建立了一个动态收集题目的机制,邀请各行业的专业人士共同构建和维护评估集。团队认为,这将有助于观察模型在实际业务中的发展速度,以及发现其关键突破点,最终判断其市场潜力。

Related Links