SuperGPQA 学科领域评估基准数据集
SuperGPQA 是一个用于评估高级问答系统性能的基准数据集,由 Multimodal Art Projection 团队于 2025 年开发,相关论文成果为「SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines」。该数据集专注于自然语言处理和机器学习评估领域,旨在通过跨学科的复杂问题来测试模型的推理能力和知识水平。
数据集涵盖了 285 个研究生级别的学科领域,问题类型多样,包括生物学、物理学、化学等多个科学领域。