FrontierScience推論研究タスク評価データセット
FrontierScienceは、OpenAIが2025年にリリースした推論および科学研究タスクを評価するためのデータセットです。関連論文はFrontierScienceに掲載されています。AIが専門家レベルの科学的タスクを実行する能力を評価する目的は、専門家レベルの科学的推論と研究サブタスクにおける大規模モデルの機能を体系的に評価することです。
このデータセットは、「専門家の作成 + 2 層のタスク構造 + 自動採点メカニズム」という設計メカニズムを採用しており、クローズドエンドの精密推論とオープンエンドの科学的研究推論の 2 種類の能力に対応する 2 つのサブセットに分かれています。
- オリンピックデータセットは、国際物理オリンピック、化学オリンピック、生物オリンピックのメダリストと代表チームのコーチによって設計されました。問題の難易度は、IPhO、IChO、IBOといったトップクラスの国際大会に匹敵します。短答式の推論問題に焦点を当てており、結果の検証可能性と自動評価の安定性を確保するため、モデルは単一の数値、代数式、またはあいまい一致が可能な生物学用語を出力する必要があります。
- 研究データセットは、博士課程の学生、ポスドク研究員、教授、その他の現役研究者によって作成されています。設問は、物理学、化学、生物学の3つの主要分野を網羅し、実際の科学研究で遭遇する可能性のあるサブ問題をシミュレートしています。各設問には10点満点のきめ細かいスコアが付与され、回答の正確性に加え、モデリングの前提、推論パス、中間結論など、いくつかの重要な側面におけるモデルのパフォーマンスを評価します。