Mathematical Reasoning
벤치마크 목록
해당 작업에 관련된 모든 벤치마크 목록
aime24
최고 모델: DeepSeek-r1
평가 지표
세부 정보 보기
lila-ood
최고 모델: Codex (Few-Shot, 175B)
평가 지표
세부 정보 보기
math500
최고 모델: Search-o1
평가 지표
세부 정보 보기
unigeo
최고 모델: GOLD
평가 지표
세부 정보 보기
amc23
평가 지표
세부 정보 보기
frontiermath
평가 지표
세부 정보 보기
geoqa
평가 지표
세부 정보 보기
lila-iid
평가 지표
세부 정보 보기
mmlu-mathematics
평가 지표
세부 정보 보기
pgps9k
평가 지표
세부 정보 보기
unigeo-prv
평가 지표
세부 정보 보기