Mathematical Reasoning On Frontiermath
評価指標
Accuracy
評価結果
このベンチマークにおける各モデルのパフォーマンス結果
モデル名 | Accuracy | Paper Title | Repository |
---|---|---|---|
o1-mini | 0.01 | - | - |
o1-preview | 0.01 | - | - |
Claude 3.5 Sonnet | 0.01 | - | - |
GPT-4o | 0.01 | - | - |
o3 | 0.252 | - | - |
Gemini 1.5 Pro (002) | 0.02 | FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI | - |
0 of 6 row(s) selected.