前沿科学:评估AI执行专家级科学任务的能力
前沿科学:评估AI执行专家级科学任务的能力
Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan
Abstract
我们提出 FrontierScience,这是一个用于评估人工智能在专家级科学推理方面能力的基准测试。FrontierScience 包含两个赛道:(1)奥赛赛道,涵盖国际奥林匹克竞赛题目(达到 IPhO、IChO 和 IBO 水平);(2)研究赛道,包含博士级别、开放性的问题,代表了科学研究中的典型子问题。整体而言,FrontierScience 涵盖数百道题目(开源黄金数据集包含 160 道题),内容覆盖物理、化学和生物等多个子领域,从量子电动力学到合成有机化学均有涉及。近年来,现有科学基准测试已接近性能饱和,这些基准多依赖于选择题形式的知识性问题,或已发表的公开信息。相比之下,所有奥赛题目均由国际奥赛奖牌得主及国家代表队教练原创设计,以确保题目的难度、原创性与事实准确性。所有研究赛道题目均由博士级科学家(博士生、博士后研究人员或教授)撰写并验证。针对研究赛道,我们还引入了一种细粒度的基于评分量规(rubric-based)的评估架构,能够对模型在解决科研任务全过程中的表现进行动态评估,而非仅评判最终答案的正确性。在对多个前沿模型的初步评估中,GPT-5.2 在 FrontierScience 上表现最佳,其在奥赛赛道中取得 77% 的得分,在研究赛道中得分为 25%。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.