HyperAI超神経

SuperGPQA 科目領域評価ベンチマークデータセット

日付

2ヶ月前

組織

ライセンス

Apache 2.0

ダウンロードヘルプ

SuperGPQAは、高度な質問応答システムのパフォーマンスを評価するためのベンチマークデータセットです。2025年にマルチモーダルアートプロジェクションチームによって開発されました。関連する論文の結果は次のとおりです。SuperGPQA: 285 の大学院分野にわたる LLM 評価のスケーリング「」。このデータセットは、自然言語処理と機械学習評価の分野に焦点を当てており、複雑な学際的な問題を通じてモデルの推論能力と知識レベルをテストすることを目的としています。

このデータセットは、生物学、物理学、化学、その他の科学分野を含む、多様な質問タイプを持つ大学院レベルの 285 の科目領域をカバーしています。