HyperAIHyperAI

Command Palette

Search for a command to run...

FrontierScience推論研究タスク評価データセット

日付

1ヶ月前

データセット構成

OpenAI

Paper URL

7a783933efcc

ライセンス

Apache 2.0

FrontierScience は、OpenAI が 2025 年にリリースした、推論および科学研究タスクを評価するためのデータセットです。関連する論文には以下が含まれます... FrontierScience: 専門家レベルの科学的タスクを実行するAIの能力を評価する目的は、専門家レベルの科学的推論と研究サブタスクにおける大規模モデルの機能を体系的に評価することです。

このデータセットは、「専門家の作成 + 2 層のタスク構造 + 自動採点メカニズム」という設計メカニズムを採用しており、クローズドエンドの精密推論とオープンエンドの科学的研究推論の 2 種類の能力に対応する 2 つのサブセットに分かれています。

  • オリンピックデータセットは、国際物理オリンピック、化学オリンピック、生物オリンピックのメダリストと代表チームのコーチによって設計されました。問題の難易度は、IPhO、IChO、IBOといったトップクラスの国際大会に匹敵します。短答式の推論問題に焦点を当てており、結果の検証可能性と自動評価の安定性を確保するため、モデルは単一の数値、代数式、またはあいまい一致が可能な生物学用語を出力する必要があります。
  • 研究データセットは、博士課程の学生、ポスドク研究員、教授、その他の現役研究者によって作成されています。設問は、物理学、化学、生物学の3つの主要分野を網羅し、実際の科学研究で遭遇する可能性のあるサブ問題をシミュレートしています。各設問には10点満点のきめ細かいスコアが付与され、回答の正確性に加え、モデリングの前提、推論パス、中間結論など、いくつかの重要な側面におけるモデルのパフォーマンスを評価します。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています