2 个月前

摘要

我们提出 FrontierScience，这是一个用于评估人工智能在专家级科学推理方面能力的基准测试。FrontierScience 包含两个赛道：（1）奥赛赛道，涵盖国际奥林匹克竞赛题目（达到 IPhO、IChO 和 IBO 水平）；（2）研究赛道，包含博士级别、开放性的问题，代表了科学研究中的典型子问题。整体而言，FrontierScience 涵盖数百道题目（开源黄金数据集包含 160 道题），内容覆盖物理、化学和生物等多个子领域，从量子电动力学到合成有机化学均有涉及。近年来，现有科学基准测试已接近性能饱和，这些基准多依赖于选择题形式的知识性问题，或已发表的公开信息。相比之下，所有奥赛题目均由国际奥赛奖牌得主及国家代表队教练原创设计，以确保题目的难度、原创性与事实准确性。所有研究赛道题目均由博士级科学家（博士生、博士后研究人员或教授）撰写并验证。针对研究赛道，我们还引入了一种细粒度的基于评分量规（rubric-based）的评估架构，能够对模型在解决科研任务全过程中的表现进行动态评估，而非仅评判最终答案的正确性。在对多个前沿模型的初步评估中，GPT-5.2 在 FrontierScience 上表现最佳，其在奥赛赛道中取得 77% 的得分，在研究赛道中得分为 25%。

源 PDF