Mathematical Reasoning On Aime24
المقاييس
Acc
النتائج
نتائج أداء النماذج المختلفة على هذا المعيار القياسي
جدول المقارنة
اسم النموذج | Acc |
---|---|
qwen2-5-technical-report | 23.3 |
search-o1-agentic-search-enhanced-large | 56.7 |
النموذج 3 | 74.4 |
النموذج 4 | 44.6 |
النموذج 5 | 16 |
النموذج 6 | 70.0 |
s1-simple-test-time-scaling | 56.7 |
deepseek-r1-incentivizing-reasoning | 79.8 |