フロンティアサイエンス:AIが専門家レベルの科学的タスクを実行する能力の評価
フロンティアサイエンス:AIが専門家レベルの科学的タスクを実行する能力の評価
Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan
Abstract
本稿では、専門家レベルの科学的推論能力を評価するためのベンチマーク「FrontierScience」を紹介する。FrontierScienceは、以下の2つのトラックから構成される:(1) オリンピアド(Olympiad):国際オリンピック競技大会(IPhO、IChO、IBOレベル)の問題を収録。 (2) リサーチ(Research):博士課程レベルの、開かれた枠組みの問題を収録し、科学研究におけるサブタスクを代表する。合計で数百問(オープンソース化されたゴールドセットでは160問)を収録しており、量子電磁力学から合成有機化学に至るまで、物理学、化学、生物学の多様な分野をカバーしている。近年のモデルの進展により、従来の科学ベンチマークは、選択式の知識問題や既に公表済みの情報に依存するものが多く、その性能はほぼ飽和状態に達している。これに対し、オリンピアドのすべての問題は、国際オリンピックの金メダリストや国家代表チームの指導者によって独自に作成されており、難易度、独創性、事実性の水準を保証している。リサーチの問題は、博士課程の学生、博士研究員、教授などのPhD資格を持つ科学者によって作成・検証された研究のサブタスクである。リサーチの評価では、単一の答えを評価するのではなく、研究タスクの解決プロセス全体にわたりモデルの能力を段階的に評価するための細粒度の基準(ルーブリック)ベースのアーキテクチャを導入している。初期の複数の先端モデル評価において、GPT-5.2がFrontierScienceで最も優れた性能を示し、オリンピアドセットでは77%、リサーチセットでは25%のスコアを記録した。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.