Command Palette
Search for a command to run...
APEX 人工智能生产力评测基准数据集
APEX 是由 Mercor 研究团队联合哈佛大学法学院、斯克里普斯研究所于 2025 年首次发布的一个用于评估前沿人工智能模型在高经济价值知识工作中表现的综合性基准测试数据集,相关论文成果为「The AI Productivity Index (APEX)」,旨在衡量前沿人工智能模型在真实经济任务中的执行能力,而非仅停留于抽象推理层面。
该数据集当前版本为 APEX-v1.0,共包含 200 个具有高经济价值的专业知识任务案例,覆盖投资银行、管理咨询、法律和基础医疗四个典型知识密集型领域。每个任务均对应现实工作中需要专业人员耗时 1–8 小时才能完成的分析、判断与文档撰写工作,并附带可引用的证据材料与可解释、细粒度的评分标准,用于客观衡量模型输出质量。
