HyperAIHyperAI

Command Palette

Search for a command to run...

SuperGPQA 科目領域評価ベンチマークデータセット

Discordで議論

日付

1年前

データセット構成

Paper URL

arxiv.org

ライセンス

Apache 2.0

SuperGPQAは、高度な質問応答システムのパフォーマンスを評価するためのベンチマークデータセットです。2025年にマルチモーダルアートプロジェクションチームによって開発されました。関連する論文の結果は次のとおりです。SuperGPQA: 285 の大学院分野にわたる LLM 評価のスケーリング「」。このデータセットは、自然言語処理と機械学習評価の分野に焦点を当てており、複雑な学際的な問題を通じてモデルの推論能力と知識レベルをテストすることを目的としています。

このデータセットは、生物学、物理学、化学、その他の科学分野を含む、多様な質問タイプを持つ大学院レベルの 285 の科目領域をカバーしています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています