Command Palette

Search for a command to run...

5 天前

人工智能生产力指数(APEX)

人工智能生产力指数(APEX)

摘要

我们推出了首个AI生产力指数(APEX)版本——APEX-v1.0,这是一个用于评估前沿AI模型是否能够以高经济价值完成知识型工作的基准测试。APEX旨在解决AI研究中一个最显著的低效问题:除编程之外,大多数基准测试往往无法有效评估具有经济意义的能力。APEX-v1.0包含200个测试案例,覆盖四大领域:投资银行、管理咨询、法律以及初级医疗保健。该基准的构建分为三个步骤:首先,我们邀请了具有顶尖实践经验的专家,例如高盛集团的投资银行家;其次,专家们设计了反映其日常工作中高价值任务的提示(prompts);第三,专家们制定了用于评估模型输出质量的评分标准(rubrics)。我们使用语言模型判官(LM judge)对23个前沿模型在APEX-v1.0上的表现进行了评估。其中,GPT-5(思维模式 = 高)取得最高平均分(64.2%),紧随其后的是Grok-4(61.3%)和Gemini 2.5 Flash(思维模式 = 开启)(60.4%)。Qwen 3 235B是表现最佳的开源模型,整体排名第七。尽管顶尖模型已取得显著进展,但其表现与人类专家之间仍存在巨大差距,凸显出亟需建立更精准的评估体系,以衡量模型在创造经济价值工作方面的真实能力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供