Datum

vor einem Jahr

Organisation

Paper-URL

Lizenz

Apache 2.0

Zitat

@misc{pteam2025supergpqascalingllmevaluation, title={SuperGPQA: Skalierung der LLM-Evaluation in 285 Graduiertendisziplinen}, author={MAP Team und Yuansheng Ni und Haoran Que und Qiyao Wang und Zhoufutu Wen und Siwei Wu und Tianshun Xing und Ming Xu und Zhenzhu Yang und Zekun Moore Wang und Junting Zhou und Yuelin Bai und Zhaoqun Li und Tianhao Liang und Chengdong Lin und Hongquan Lin und Yinghao Ma und Zhongyuan Peng und Zifan Peng und Qige Qi und Shi Qiu und Xingwei Qu und Yizhou Tan und Zili Wang und Chenqing Wang und Hao Wang und Yiya Wang und Yubo Wang und Jiajun Xu und Kexin Yang und Ruibin Yuan und Yuanhao Yue und Tianyang Zhan und Chun Zhang und Jingyang Zhang und Xiyue Zhang und Xingjian Zhang und Yue Zhang und Yongchi Zhao und Xiangyu Zheng und Chenghua Zhong und Yang Gao und Zhoujun Li und Dayiheng Liu und Qian Liu und Tianyu Liu und Shiwen Ni und Junran Peng und Yujia Qin und Wenbo Su und Guoyin Wang und Shi Wang und Jian Yang und Min Yang und Meng Cao und Xiang Yue und Zhaoxiang Zhang und Wangchunshu Zhou und Jiaheng Liu Und Qunshu Lin und Wenhao Huang und Ge Zhang}, Jahr={2025}, eprint={2502.14739}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.14739}, }

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

vor 3 Stunden

TACK Targeted Chimera Knowledge Base Dataset

vor 15 Tagen

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

vor 18 Tagen

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

vor 18 Tagen

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

vor 6 Tagen

ViMU-Datensatz Zum Verständnis Von Videometaphern

vor 19 Tagen

MemLens Multimodal Long Context Benchmark-Datensatz

vor 19 Tagen

Claw-Eval Real-World Benchmark Dataset

vor einem Monat

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

vor 2 Monaten

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden

vor einem Tag

MDPBench Multilingual Document Parsing Benchmark Dataset

vor einem Tag

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

Datum

vor einem Jahr

Organisation

Paper-URL

arxiv.org

Lizenz

Apache 2.0

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

vor 3 Stunden

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

vor einem Tag

Nemotron-SFT-Math-v4 Mathematische Inferenz SFT-Datensatz

vor 3 Stunden

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

vor 3 Stunden

TACK Targeted Chimera Knowledge Base Dataset

vor 15 Tagen

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

vor 18 Tagen

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

vor 18 Tagen

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

vor 6 Tagen

ViMU-Datensatz Zum Verständnis Von Videometaphern

vor 19 Tagen

MemLens Multimodal Long Context Benchmark-Datensatz

vor 19 Tagen

Claw-Eval Real-World Benchmark Dataset

vor einem Monat

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

vor 2 Monaten

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden

vor einem Tag

MDPBench Multilingual Document Parsing Benchmark Dataset

vor einem Tag

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SuperGPQA-Benchmark-Datensatz Zur Fachbereichsbewertung

Zitat

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SuperGPQA-Benchmark-Datensatz Zur Fachbereichsbewertung

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

Nemotron-SFT-Math-v4 Mathematische Inferenz SFT-Datensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

TACK Targeted Chimera Knowledge Base Dataset

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MemLens Multimodal Long Context Benchmark-Datensatz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden

MDPBench Multilingual Document Parsing Benchmark Dataset

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SuperGPQA-Benchmark-Datensatz Zur Fachbereichsbewertung

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

Nemotron-SFT-Math-v4 Mathematische Inferenz SFT-Datensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

TACK Targeted Chimera Knowledge Base Dataset

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MemLens Multimodal Long Context Benchmark-Datensatz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden

MDPBench Multilingual Document Parsing Benchmark Dataset

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

Nemotron-SFT-Math-v4 Mathematische Inferenz SFT-Datensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

TACK Targeted Chimera Knowledge Base Dataset

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MemLens Multimodal Long Context Benchmark-Datensatz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden

MDPBench Multilingual Document Parsing Benchmark Dataset

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

Nemotron-SFT-Math-v4 Mathematische Inferenz SFT-Datensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

TACK Targeted Chimera Knowledge Base Dataset

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MemLens Multimodal Long Context Benchmark-Datensatz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden

MDPBench Multilingual Document Parsing Benchmark Dataset

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen