Logical Reasoning
Benchmark-Liste
Alle Benchmarks für diese Aufgabe
lingoly
Bestes Modell: Claude Opus
Metriken
Details anzeigen
big-bench-formal-fallacies-syllogisms
Metriken
Details anzeigen
big-bench-logic-grid-puzzle
Metriken
Details anzeigen
big-bench-logical-fallacy-detection
Metriken
Details anzeigen
big-bench-penguins-in-a-table
Metriken
Details anzeigen
big-bench-reasoning-about-colored-objects
Metriken
Details anzeigen
big-bench-strategyqa
Metriken
Details anzeigen
big-bench-temporal-sequences
Metriken
Details anzeigen
ruworldtree
Metriken
Details anzeigen
winograd-automatic
Metriken
Details anzeigen