Reasoning
Leistungsmetriken der Mainstream-KI-Modelle bei verschiedenen Aufgaben, die den neuesten Stand der Technik präsentieren
KI-Modell-Leistungs-Benchmarks
Leistungsmetriken der Mainstream-KI-Modelle bei verschiedenen Aufgaben, die den neuesten Stand der Technik präsentieren
ARC
50 Forschungsarbeiten | 0 Benchmarks
Discrete Choice Models
50 Forschungsarbeiten | 0 Benchmarks
3D Human Reconstruction
48 Forschungsarbeiten | 10 Benchmarks
Causal Identification
46 Forschungsarbeiten | 0 Benchmarks
Common Sense Reasoning
45 Forschungsarbeiten | 24 Benchmarks
Task Planning
42 Forschungsarbeiten | 0 Benchmarks
StrategyQA
39 Forschungsarbeiten | 0 Benchmarks
Decision Making Under Uncertainty
38 Forschungsarbeiten | 0 Benchmarks
Temporal Sequences
35 Forschungsarbeiten | 1 Benchmarks
Physical Intuition
33 Forschungsarbeiten | 1 Benchmarks
Assortment Optimization
32 Forschungsarbeiten | 0 Benchmarks
Natural Language Visual Grounding
32 Forschungsarbeiten | 1 Benchmarks
Missing Labels
30 Forschungsarbeiten | 0 Benchmarks
Model-based Reinforcement Learning
30 Forschungsarbeiten | 0 Benchmarks
Abstract Argumentation
25 Forschungsarbeiten | 0 Benchmarks
Zero-Shot Video Question Answer
25 Forschungsarbeiten | 16 Benchmarks
Visual Reasoning
24 Forschungsarbeiten | 12 Benchmarks
Systematic Generalization
22 Forschungsarbeiten | 0 Benchmarks
Decision Making
20 Forschungsarbeiten | 1 Benchmarks
Geometry Problem Solving
20 Forschungsarbeiten | 0 Benchmarks
Odd One Out
20 Forschungsarbeiten | 1 Benchmarks
Video-based Generative Performance Benchmarking
20 Forschungsarbeiten | 1 Benchmarks
Abstract Algebra
18 Forschungsarbeiten | 1 Benchmarks
Program Repair
18 Forschungsarbeiten | 3 Benchmarks
Image Paragraph Captioning
17 Forschungsarbeiten | 1 Benchmarks
Navigate
16 Forschungsarbeiten | 0 Benchmarks
Video-based Generative Performance Benchmarking (Contextual Understanding)
16 Forschungsarbeiten | 1 Benchmarks
Video-based Generative Performance Benchmarking (Correctness of Information)
15 Forschungsarbeiten | 1 Benchmarks
Video-based Generative Performance Benchmarking (Detail Orientation))
15 Forschungsarbeiten | 1 Benchmarks
Video-based Generative Performance Benchmarking (Temporal Understanding)
15 Forschungsarbeiten | 1 Benchmarks
Video-based Generative Performance Benchmarking (Consistency)
15 Forschungsarbeiten | 1 Benchmarks
Date Understanding
14 Forschungsarbeiten | 0 Benchmarks
Visual Commonsense Reasoning
14 Forschungsarbeiten | 7 Benchmarks
Formal Logic
13 Forschungsarbeiten | 1 Benchmarks
Automated Theorem Proving
11 Forschungsarbeiten | 9 Benchmarks
Arithmetic Reasoning
9 Forschungsarbeiten | 5 Benchmarks
Error Understanding
9 Forschungsarbeiten | 2 Benchmarks
Logical Sequence
9 Forschungsarbeiten | 0 Benchmarks
Mathematical Induction
9 Forschungsarbeiten | 1 Benchmarks
Physical Commonsense Reasoning
9 Forschungsarbeiten | 1 Benchmarks
Analogical Similarity
7 Forschungsarbeiten | 1 Benchmarks
Autonomous Web Navigation
7 Forschungsarbeiten | 0 Benchmarks
Causal Judgment
7 Forschungsarbeiten | 0 Benchmarks
Elementary Mathematics
7 Forschungsarbeiten | 1 Benchmarks
Logical Reasoning
7 Forschungsarbeiten | 10 Benchmarks
Theory of Mind Modeling
7 Forschungsarbeiten | 0 Benchmarks
GitHub issue resolution
6 Forschungsarbeiten | 0 Benchmarks
Logical Fallacy Detection
6 Forschungsarbeiten | 0 Benchmarks
Math Word Problem Solving
6 Forschungsarbeiten | 13 Benchmarks
Multimodal Reasoning
6 Forschungsarbeiten | 3 Benchmarks
Visual Entailment
6 Forschungsarbeiten | 3 Benchmarks
Human Judgment Correlation
5 Forschungsarbeiten | 2 Benchmarks
Winowhy
5 Forschungsarbeiten | 0 Benchmarks
Checkmate In One
4 Forschungsarbeiten | 0 Benchmarks
High School Mathematics
4 Forschungsarbeiten | 1 Benchmarks
Penguins In A Table
4 Forschungsarbeiten | 0 Benchmarks
Anachronisms
3 Forschungsarbeiten | 0 Benchmarks
College Mathematics
3 Forschungsarbeiten | 1 Benchmarks
Conformal Prediction
3 Forschungsarbeiten | 0 Benchmarks
Crass AI
3 Forschungsarbeiten | 1 Benchmarks
Reasoning About Colored Objects
3 Forschungsarbeiten | 0 Benchmarks
Analytic Entailment
2 Forschungsarbeiten | 1 Benchmarks
Crash Blossom
2 Forschungsarbeiten | 1 Benchmarks
Entailed Polarity
2 Forschungsarbeiten | 1 Benchmarks
Evaluating Information Essentiality
2 Forschungsarbeiten | 1 Benchmarks
Human Judgment Classification
2 Forschungsarbeiten | 1 Benchmarks
Identify Odd Metapor
2 Forschungsarbeiten | 1 Benchmarks
Logical Args
2 Forschungsarbeiten | 1 Benchmarks
Metaphor Boolean
2 Forschungsarbeiten | 1 Benchmarks
Novel Concepts
2 Forschungsarbeiten | 0 Benchmarks
Presuppositions As NLI
2 Forschungsarbeiten | 1 Benchmarks
Code Line Descriptions
1 Forschungsarbeiten | 0 Benchmarks
Commonsense Reasoning for RL
1 Forschungsarbeiten | 1 Benchmarks
Pre-election ratings estimation
1 Forschungsarbeiten | 0 Benchmarks
Professional Accounting
1 Forschungsarbeiten | 1 Benchmarks