Logical Reasoning
Liste des benchmarks
Tous les benchmarks liés à cette tâche
lingoly
Meilleur modèle: Claude Opus
Métriques
Voir les détails
big-bench-formal-fallacies-syllogisms
Métriques
Voir les détails
big-bench-logic-grid-puzzle
Métriques
Voir les détails
big-bench-logical-fallacy-detection
Métriques
Voir les détails
big-bench-penguins-in-a-table
Métriques
Voir les détails
big-bench-reasoning-about-colored-objects
Métriques
Voir les détails
big-bench-strategyqa
Métriques
Voir les détails
big-bench-temporal-sequences
Métriques
Voir les détails
ruworldtree
Métriques
Voir les détails
winograd-automatic
Métriques
Voir les détails