HyperAIHyperAI

Command Palette

Search for a command to run...

SuperGPQA 学科领域评估基准数据集

Discuss on Discord

Date

10 个月前

Organization

Paper URL

arxiv.org

License

Apache 2.0

SuperGPQA 是一个用于评估高级问答系统性能的基准数据集,由 Multimodal Art Projection 团队于 2025 年开发,相关论文成果为「SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines」。该数据集专注于自然语言处理和机器学习评估领域,旨在通过跨学科的复杂问题来测试模型的推理能力和知识水平。

数据集涵盖了 285 个研究生级别的学科领域,问题类型多样,包括生物学、物理学、化学等多个科学领域。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供