HyperAI超神经

Mathematical Reasoning On Aime24

评估指标

Acc

评测结果

各个模型在此基准测试上的表现结果

比较表格
模型名称Acc
qwen2-5-technical-report23.3
search-o1-agentic-search-enhanced-large56.7
模型 374.4
模型 444.6
模型 516
模型 670.0
s1-simple-test-time-scaling56.7
deepseek-r1-incentivizing-reasoning79.8