Reasoning
مقاييس أداء نماذج الذكاء الاصطناعي الرئيسية عبر مهام متنوعة، مع عرض أحدث التقنيات
معايير أداء نماذج الذكاء الاصطناعي
مقاييس أداء نماذج الذكاء الاصطناعي الرئيسية عبر مهام متنوعة، مع عرض أحدث التقنيات
ARC
50 ورقة بحثية | 0 معيار قياسي
Discrete Choice Models
50 ورقة بحثية | 0 معيار قياسي
3D Human Reconstruction
48 ورقة بحثية | 10 معيار قياسي
Causal Identification
46 ورقة بحثية | 0 معيار قياسي
Common Sense Reasoning
45 ورقة بحثية | 24 معيار قياسي
Task Planning
42 ورقة بحثية | 0 معيار قياسي
StrategyQA
39 ورقة بحثية | 0 معيار قياسي
Decision Making Under Uncertainty
38 ورقة بحثية | 0 معيار قياسي
Temporal Sequences
35 ورقة بحثية | 1 معيار قياسي
Physical Intuition
33 ورقة بحثية | 1 معيار قياسي
Assortment Optimization
32 ورقة بحثية | 0 معيار قياسي
Natural Language Visual Grounding
32 ورقة بحثية | 1 معيار قياسي
Missing Labels
30 ورقة بحثية | 0 معيار قياسي
Model-based Reinforcement Learning
30 ورقة بحثية | 0 معيار قياسي
Abstract Argumentation
25 ورقة بحثية | 0 معيار قياسي
Zero-Shot Video Question Answer
25 ورقة بحثية | 16 معيار قياسي
Visual Reasoning
24 ورقة بحثية | 12 معيار قياسي
Systematic Generalization
22 ورقة بحثية | 0 معيار قياسي
Decision Making
20 ورقة بحثية | 1 معيار قياسي
Geometry Problem Solving
20 ورقة بحثية | 0 معيار قياسي
Odd One Out
20 ورقة بحثية | 1 معيار قياسي
Video-based Generative Performance Benchmarking
20 ورقة بحثية | 1 معيار قياسي
Abstract Algebra
18 ورقة بحثية | 1 معيار قياسي
Program Repair
18 ورقة بحثية | 3 معيار قياسي
Image Paragraph Captioning
17 ورقة بحثية | 1 معيار قياسي
Navigate
16 ورقة بحثية | 0 معيار قياسي
Video-based Generative Performance Benchmarking (Contextual Understanding)
16 ورقة بحثية | 1 معيار قياسي
Video-based Generative Performance Benchmarking (Correctness of Information)
15 ورقة بحثية | 1 معيار قياسي
Video-based Generative Performance Benchmarking (Detail Orientation))
15 ورقة بحثية | 1 معيار قياسي
Video-based Generative Performance Benchmarking (Temporal Understanding)
15 ورقة بحثية | 1 معيار قياسي
Video-based Generative Performance Benchmarking (Consistency)
15 ورقة بحثية | 1 معيار قياسي
Date Understanding
14 ورقة بحثية | 0 معيار قياسي
Visual Commonsense Reasoning
14 ورقة بحثية | 7 معيار قياسي
Formal Logic
13 ورقة بحثية | 1 معيار قياسي
Automated Theorem Proving
11 ورقة بحثية | 9 معيار قياسي
Arithmetic Reasoning
9 ورقة بحثية | 5 معيار قياسي
Error Understanding
9 ورقة بحثية | 2 معيار قياسي
Logical Sequence
9 ورقة بحثية | 0 معيار قياسي
Mathematical Induction
9 ورقة بحثية | 1 معيار قياسي
Physical Commonsense Reasoning
9 ورقة بحثية | 1 معيار قياسي
Analogical Similarity
7 ورقة بحثية | 1 معيار قياسي
Autonomous Web Navigation
7 ورقة بحثية | 0 معيار قياسي
Causal Judgment
7 ورقة بحثية | 0 معيار قياسي
Elementary Mathematics
7 ورقة بحثية | 1 معيار قياسي
Logical Reasoning
7 ورقة بحثية | 10 معيار قياسي
Theory of Mind Modeling
7 ورقة بحثية | 0 معيار قياسي
GitHub issue resolution
6 ورقة بحثية | 0 معيار قياسي
Logical Fallacy Detection
6 ورقة بحثية | 0 معيار قياسي
Math Word Problem Solving
6 ورقة بحثية | 13 معيار قياسي
Multimodal Reasoning
6 ورقة بحثية | 3 معيار قياسي
Visual Entailment
6 ورقة بحثية | 3 معيار قياسي
Human Judgment Correlation
5 ورقة بحثية | 2 معيار قياسي
Winowhy
5 ورقة بحثية | 0 معيار قياسي
Checkmate In One
4 ورقة بحثية | 0 معيار قياسي
High School Mathematics
4 ورقة بحثية | 1 معيار قياسي
Penguins In A Table
4 ورقة بحثية | 0 معيار قياسي
Anachronisms
3 ورقة بحثية | 0 معيار قياسي
College Mathematics
3 ورقة بحثية | 1 معيار قياسي
Conformal Prediction
3 ورقة بحثية | 0 معيار قياسي
Crass AI
3 ورقة بحثية | 1 معيار قياسي
Reasoning About Colored Objects
3 ورقة بحثية | 0 معيار قياسي
Analytic Entailment
2 ورقة بحثية | 1 معيار قياسي
Crash Blossom
2 ورقة بحثية | 1 معيار قياسي
Entailed Polarity
2 ورقة بحثية | 1 معيار قياسي
Evaluating Information Essentiality
2 ورقة بحثية | 1 معيار قياسي
Human Judgment Classification
2 ورقة بحثية | 1 معيار قياسي
Identify Odd Metapor
2 ورقة بحثية | 1 معيار قياسي
Logical Args
2 ورقة بحثية | 1 معيار قياسي
Metaphor Boolean
2 ورقة بحثية | 1 معيار قياسي
Novel Concepts
2 ورقة بحثية | 0 معيار قياسي
Presuppositions As NLI
2 ورقة بحثية | 1 معيار قياسي
Code Line Descriptions
1 ورقة بحثية | 0 معيار قياسي
Commonsense Reasoning for RL
1 ورقة بحثية | 1 معيار قياسي
Pre-election ratings estimation
1 ورقة بحثية | 0 معيار قياسي
Professional Accounting
1 ورقة بحثية | 1 معيار قياسي