HyperAIHyperAI

Command Palette

Search for a command to run...

APEX 人工智能生产力评测基准数据集

Date

2 个月前

Organization

Harvard Law School
Mercor
The Scripps Research Institute

Publish URL

www.mercor.com

Paper URL

2509.25721

APEX 是由 Mercor 研究团队联合哈佛大学法学院、斯克里普斯研究所于 2025 年首次发布的一个用于评估前沿人工智能模型在高经济价值知识工作中表现的综合性基准测试数据集,相关论文成果为「The AI Productivity Index (APEX)」,旨在衡量前沿人工智能模型在真实经济任务中的执行能力,而非仅停留于抽象推理层面。

该数据集当前版本为 APEX-v1.0,共包含 200 个具有高经济价值的专业知识任务案例,覆盖投资银行、管理咨询、法律和基础医疗四个典型知识密集型领域。每个任务均对应现实工作中需要专业人员耗时 1–8 小时才能完成的分析、判断与文档撰写工作,并附带可引用的证据材料与可解释、细粒度的评分标准,用于客观衡量模型输出质量。

数据集构建流程

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供