HyperAI초신경

Mathematical Reasoning On Frontiermath

평가 지표

Accuracy

평가 결과

이 벤치마크에서 각 모델의 성능 결과

모델 이름
Accuracy
Paper TitleRepository
o1-mini0.01--
o1-preview0.01--
Claude 3.5 Sonnet0.01--
GPT-4o0.01--
o30.252--
Gemini 1.5 Pro (002)0.02FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI-
0 of 6 row(s) selected.