Mathematical Reasoning
Liste des benchmarks
Tous les benchmarks liés à cette tâche
aime24
Meilleur modèle: DeepSeek-r1
Métriques
Voir les détails
lila-ood
Meilleur modèle: Codex (Few-Shot, 175B)
Métriques
Voir les détails
math500
Meilleur modèle: Search-o1
Métriques
Voir les détails
unigeo
Meilleur modèle: GOLD
Métriques
Voir les détails
amc23
Métriques
Voir les détails
frontiermath
Métriques
Voir les détails
geoqa
Métriques
Voir les détails
lila-iid
Métriques
Voir les détails
mmlu-mathematics
Métriques
Voir les détails
pgps9k
Métriques
Voir les détails
unigeo-prv
Métriques
Voir les détails