Command Palette
Search for a command to run...
SuperGPQA 科目領域評価ベンチマークデータセット
SuperGPQAは、高度な質問応答システムのパフォーマンスを評価するためのベンチマークデータセットです。2025年にマルチモーダルアートプロジェクションチームによって開発されました。関連する論文の結果は次のとおりです。SuperGPQA: 285 の大学院分野にわたる LLM 評価のスケーリング「」。このデータセットは、自然言語処理と機械学習評価の分野に焦点を当てており、複雑な学際的な問題を通じてモデルの推論能力と知識レベルをテストすることを目的としています。 このデータセットは、生物学、物理学、化学、その他の科学分野を含む、多様な質問タイプを持つ大学院レベルの 285 の科目領域をカバーしています。
引用
@misc{pteam2025supergpqascalingllmevaluation、 タイトル={SuperGPQA: 285の大学院分野にわたるLLM評価の規模拡大}、 author={MAP チーム、Xinrun Du、Yifan Yao、Kaijing Ma、Bingli Wang、Tianyu Zheng、Kang Zhu、Minghao Liu、Yiming Liang、Xiaolong Jin、Zhenlin Wei、Chujie Zheng、Kaixing Deng、Shuyue Guo、Shian Jia、Sichao Jiang、Yiyan Liao、Rui Li、Qinrui Li、Sirun Li、Yizhi Li、Yunwen Li、Dehua Ma、Yuansheng Ni、Haoran Que、Qiyao Wang、Zhoufutu Wen、Siwei Wu、Tianshun Xu、Ming Xu、Yang Zhenzhu、Zekun Moore Wang、Junting Zhou、Yuelin Bai、Xingyuan Bu、Chenglin Cai、Liang Chen、Yifan Chen、Chengtuo Cheng、Tianhao Cheng、Keyi Ding、ファン・シミンとユン・ファン、 Yaoru Li、Yizhe Li、Zhaoqun Li、Tianhao Liang、Chengdong Lin、Hongquan Lin、Yinghao Ma、Zhongyuan Peng、Zifan Peng、Qige Qi、Shi Qiu、Xingwei Qu、Yizhou Tan、Zili Wang、Chenqing Wang、Hao Wang、Yiya Wang、Yubo Wang、Jiajun Xu、Kexinヤン、ルイビン、ユエ・ユアンハオ、ジャン・ティエンヤン、チャン・チュン、張ジンヤン、張西月、張行建、張岳、趙永吉、鄭祥宇、鍾成華、楊高、李周君、劉大英、劉銭、劉天宇、ニー・シーウェン、彭ジュンラン、秦ユージア、スー・ウェンボー、 Guoyin Wang、Shi Wang、Jian Yang、ミン・ヤン、孟操、項月、張昭祥、周王春樹、劉嘉恒、林春樹、黄文豪、張格}、 年={2025}、 eprint={2502.14739}、 archivePrefix={arXiv}、 primaryClass={cs.CL}、 url={https://arxiv.org/abs/2502.14739}、 }