Mathematical Reasoning
Benchmark-Liste
Alle Benchmarks für diese Aufgabe
aime24
Bestes Modell: DeepSeek-r1
Metriken
Details anzeigen
lila-ood
Bestes Modell: Codex (Few-Shot, 175B)
Metriken
Details anzeigen
math500
Bestes Modell: Search-o1
Metriken
Details anzeigen
unigeo
Bestes Modell: GOLD
Metriken
Details anzeigen
amc23
Metriken
Details anzeigen
frontiermath
Metriken
Details anzeigen
geoqa
Metriken
Details anzeigen
lila-iid
Metriken
Details anzeigen
mmlu-mathematics
Metriken
Details anzeigen
pgps9k
Metriken
Details anzeigen
unigeo-prv
Metriken
Details anzeigen