3 个月前

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody

摘要

我们推出了首个AI生产力指数（APEX）版本——APEX-v1.0，这是一个用于评估前沿AI模型是否能够以高经济价值完成知识型工作的基准测试。APEX旨在解决AI研究中一个最显著的低效问题：除编程之外，大多数基准测试往往无法有效评估具有经济意义的能力。APEX-v1.0包含200个测试案例，覆盖四大领域：投资银行、管理咨询、法律以及初级医疗保健。该基准的构建分为三个步骤：首先，我们邀请了具有顶尖实践经验的专家，例如高盛集团的投资银行家；其次，专家们设计了反映其日常工作中高价值任务的提示（prompts）；第三，专家们制定了用于评估模型输出质量的评分标准（rubrics）。我们使用语言模型判官（LM judge）对23个前沿模型在APEX-v1.0上的表现进行了评估。其中，GPT-5（思维模式 = 高）取得最高平均分（64.2%），紧随其后的是Grok-4（61.3%）和Gemini 2.5 Flash（思维模式 = 开启）（60.4%）。Qwen 3 235B是表现最佳的开源模型，整体排名第七。尽管顶尖模型已取得显著进展，但其表现与人类专家之间仍存在巨大差距，凸显出亟需建立更精准的评估体系，以衡量模型在创造经济价值工作方面的真实能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody

摘要

我们推出了首个AI生产力指数（APEX）版本——APEX-v1.0，这是一个用于评估前沿AI模型是否能够以高经济价值完成知识型工作的基准测试。APEX旨在解决AI研究中一个最显著的低效问题：除编程之外，大多数基准测试往往无法有效评估具有经济意义的能力。APEX-v1.0包含200个测试案例，覆盖四大领域：投资银行、管理咨询、法律以及初级医疗保健。该基准的构建分为三个步骤：首先，我们邀请了具有顶尖实践经验的专家，例如高盛集团的投资银行家；其次，专家们设计了反映其日常工作中高价值任务的提示（prompts）；第三，专家们制定了用于评估模型输出质量的评分标准（rubrics）。我们使用语言模型判官（LM judge）对23个前沿模型在APEX-v1.0上的表现进行了评估。其中，GPT-5（思维模式 = 高）取得最高平均分（64.2%），紧随其后的是Grok-4（61.3%）和Gemini 2.5 Flash（思维模式 = 开启）（60.4%）。Qwen 3 235B是表现最佳的开源模型，整体排名第七。尽管顶尖模型已取得显著进展，但其表现与人类专家之间仍存在巨大差距，凸显出亟需建立更精准的评估体系，以衡量模型在创造经济价值工作方面的真实能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供