Command Palette

Search for a command to run...

APEX 人工智能生产力评测基准数据集

日期

3 天前

机构

Harvard Law School
Mercor
The Scripps Research Institute

发布地址

www.mercor.com

论文链接

2509.25721

APEX 是由 Mercor 研究团队联合哈佛大学法学院、斯克里普斯研究所于 2025 年首次发布的一个用于评估前沿人工智能模型在高经济价值知识工作中表现的综合性基准测试数据集,相关论文成果为「The AI Productivity Index (APEX)」,旨在衡量前沿人工智能模型在真实经济任务中的执行能力,而非仅停留于抽象推理层面。

该数据集当前版本为 APEX-v1.0,共包含 200 个具有高经济价值的专业知识任务案例,覆盖投资银行、管理咨询、法律和基础医疗四个典型知识密集型领域。每个任务均对应现实工作中需要专业人员耗时 1–8 小时才能完成的分析、判断与文档撰写工作,并附带可引用的证据材料与可解释、细粒度的评分标准,用于客观衡量模型输出质量。

数据集构建流程

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供