HyperAI초신경

Mathematical Reasoning On Aime24

평가 지표

Acc

평가 결과

이 벤치마크에서 각 모델의 성능 결과

		Paper Title
DeepSeek-r1	79.8	DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Openai-o1	74.4	-
Openai-o1-mini	70.0	-
Search-o1	56.7	Search-o1: Agentic Search-Enhanced Large Reasoning Models
s1-32B	56.7	s1: Simple test-time scaling
Openai-o1-preview	44.6	-
Qwen2.5-72B-Instruct	23.3	Qwen2.5 Technical Report
Claude3.5-Sonnet	16	-

0 of 8 row(s) selected.

Mathematical Reasoning On Aime24 | SOTA | HyperAI초신경