Reasoning
주요 AI 모델의 다양한 작업에 대한 성능 지표 비교, 최첨단 기술 수준 제시
AI 모델 성능 벤치마크
주요 AI 모델의 다양한 작업에 대한 성능 지표 비교, 최첨단 기술 수준 제시
ARC
50개 논문 | 0개 벤치마크
Discrete Choice Models
50개 논문 | 0개 벤치마크
3D Human Reconstruction
48개 논문 | 10개 벤치마크
Causal Identification
46개 논문 | 0개 벤치마크
Common Sense Reasoning
45개 논문 | 24개 벤치마크
Task Planning
42개 논문 | 0개 벤치마크
StrategyQA
39개 논문 | 0개 벤치마크
Decision Making Under Uncertainty
38개 논문 | 0개 벤치마크
Temporal Sequences
35개 논문 | 1개 벤치마크
Physical Intuition
33개 논문 | 1개 벤치마크
Assortment Optimization
32개 논문 | 0개 벤치마크
Natural Language Visual Grounding
32개 논문 | 1개 벤치마크
Missing Labels
30개 논문 | 0개 벤치마크
Model-based Reinforcement Learning
30개 논문 | 0개 벤치마크
Abstract Argumentation
25개 논문 | 0개 벤치마크
Zero-Shot Video Question Answer
25개 논문 | 16개 벤치마크
Visual Reasoning
24개 논문 | 12개 벤치마크
Systematic Generalization
22개 논문 | 0개 벤치마크
Decision Making
20개 논문 | 1개 벤치마크
Geometry Problem Solving
20개 논문 | 0개 벤치마크
Odd One Out
20개 논문 | 1개 벤치마크
Video-based Generative Performance Benchmarking
20개 논문 | 1개 벤치마크
Abstract Algebra
18개 논문 | 1개 벤치마크
Program Repair
18개 논문 | 3개 벤치마크
Image Paragraph Captioning
17개 논문 | 1개 벤치마크
Navigate
16개 논문 | 0개 벤치마크
Video-based Generative Performance Benchmarking (Contextual Understanding)
16개 논문 | 1개 벤치마크
Video-based Generative Performance Benchmarking (Correctness of Information)
15개 논문 | 1개 벤치마크
Video-based Generative Performance Benchmarking (Detail Orientation))
15개 논문 | 1개 벤치마크
Video-based Generative Performance Benchmarking (Temporal Understanding)
15개 논문 | 1개 벤치마크
Video-based Generative Performance Benchmarking (Consistency)
15개 논문 | 1개 벤치마크
Date Understanding
14개 논문 | 0개 벤치마크
Visual Commonsense Reasoning
14개 논문 | 7개 벤치마크
Formal Logic
13개 논문 | 1개 벤치마크
Automated Theorem Proving
11개 논문 | 9개 벤치마크
Arithmetic Reasoning
9개 논문 | 5개 벤치마크
Error Understanding
9개 논문 | 2개 벤치마크
Logical Sequence
9개 논문 | 0개 벤치마크
Mathematical Induction
9개 논문 | 1개 벤치마크
Physical Commonsense Reasoning
9개 논문 | 1개 벤치마크
Analogical Similarity
7개 논문 | 1개 벤치마크
Autonomous Web Navigation
7개 논문 | 0개 벤치마크
Causal Judgment
7개 논문 | 0개 벤치마크
Elementary Mathematics
7개 논문 | 1개 벤치마크
Logical Reasoning
7개 논문 | 10개 벤치마크
Theory of Mind Modeling
7개 논문 | 0개 벤치마크
GitHub issue resolution
6개 논문 | 0개 벤치마크
Logical Fallacy Detection
6개 논문 | 0개 벤치마크
Math Word Problem Solving
6개 논문 | 13개 벤치마크
Multimodal Reasoning
6개 논문 | 3개 벤치마크
Visual Entailment
6개 논문 | 3개 벤치마크
Human Judgment Correlation
5개 논문 | 2개 벤치마크
Winowhy
5개 논문 | 0개 벤치마크
Checkmate In One
4개 논문 | 0개 벤치마크
High School Mathematics
4개 논문 | 1개 벤치마크
Penguins In A Table
4개 논문 | 0개 벤치마크
Anachronisms
3개 논문 | 0개 벤치마크
College Mathematics
3개 논문 | 1개 벤치마크
Conformal Prediction
3개 논문 | 0개 벤치마크
Crass AI
3개 논문 | 1개 벤치마크
Reasoning About Colored Objects
3개 논문 | 0개 벤치마크
Analytic Entailment
2개 논문 | 1개 벤치마크
Crash Blossom
2개 논문 | 1개 벤치마크
Entailed Polarity
2개 논문 | 1개 벤치마크
Evaluating Information Essentiality
2개 논문 | 1개 벤치마크
Human Judgment Classification
2개 논문 | 1개 벤치마크
Identify Odd Metapor
2개 논문 | 1개 벤치마크
Logical Args
2개 논문 | 1개 벤치마크
Metaphor Boolean
2개 논문 | 1개 벤치마크
Novel Concepts
2개 논문 | 0개 벤치마크
Presuppositions As NLI
2개 논문 | 1개 벤치마크
Code Line Descriptions
1개 논문 | 0개 벤치마크
Commonsense Reasoning for RL
1개 논문 | 1개 벤치마크
Pre-election ratings estimation
1개 논문 | 0개 벤치마크
Professional Accounting
1개 논문 | 1개 벤치마크