Mathematical Reasoning
قائمة المعايير القياسية
جميع المعايير القياسية المتعلقة بهذه المهمة
aime24
أفضل نموذج: DeepSeek-r1
المقاييس
عرض التفاصيل
lila-ood
أفضل نموذج: Codex (Few-Shot, 175B)
المقاييس
عرض التفاصيل
math500
أفضل نموذج: Search-o1
المقاييس
عرض التفاصيل
unigeo
أفضل نموذج: GOLD
المقاييس
عرض التفاصيل
amc23
المقاييس
عرض التفاصيل
frontiermath
المقاييس
عرض التفاصيل
geoqa
المقاييس
عرض التفاصيل
lila-iid
المقاييس
عرض التفاصيل
mmlu-mathematics
المقاييس
عرض التفاصيل
pgps9k
المقاييس
عرض التفاصيل
unigeo-prv
المقاييس
عرض التفاصيل