Reasoning
主流AIモデルの各タスクにおける性能指標比較、最先端技術水準を展示
AIモデル性能ベンチマーク
主流AIモデルの各タスクにおける性能指標比較、最先端技術水準を展示
ARC
50 論文 | 0 ベンチマーク
Discrete Choice Models
50 論文 | 0 ベンチマーク
3D Human Reconstruction
48 論文 | 10 ベンチマーク
Causal Identification
46 論文 | 0 ベンチマーク
Common Sense Reasoning
45 論文 | 24 ベンチマーク
Task Planning
42 論文 | 0 ベンチマーク
StrategyQA
39 論文 | 0 ベンチマーク
Decision Making Under Uncertainty
38 論文 | 0 ベンチマーク
Temporal Sequences
35 論文 | 1 ベンチマーク
Physical Intuition
33 論文 | 1 ベンチマーク
Assortment Optimization
32 論文 | 0 ベンチマーク
Natural Language Visual Grounding
32 論文 | 1 ベンチマーク
Missing Labels
30 論文 | 0 ベンチマーク
Model-based Reinforcement Learning
30 論文 | 0 ベンチマーク
Abstract Argumentation
25 論文 | 0 ベンチマーク
Zero-Shot Video Question Answer
25 論文 | 16 ベンチマーク
Visual Reasoning
24 論文 | 12 ベンチマーク
Systematic Generalization
22 論文 | 0 ベンチマーク
Decision Making
20 論文 | 1 ベンチマーク
Geometry Problem Solving
20 論文 | 0 ベンチマーク
Odd One Out
20 論文 | 1 ベンチマーク
Video-based Generative Performance Benchmarking
20 論文 | 1 ベンチマーク
Abstract Algebra
18 論文 | 1 ベンチマーク
Program Repair
18 論文 | 3 ベンチマーク
Image Paragraph Captioning
17 論文 | 1 ベンチマーク
Navigate
16 論文 | 0 ベンチマーク
Video-based Generative Performance Benchmarking (Contextual Understanding)
16 論文 | 1 ベンチマーク
Video-based Generative Performance Benchmarking (Correctness of Information)
15 論文 | 1 ベンチマーク
Video-based Generative Performance Benchmarking (Detail Orientation))
15 論文 | 1 ベンチマーク
Video-based Generative Performance Benchmarking (Temporal Understanding)
15 論文 | 1 ベンチマーク
Video-based Generative Performance Benchmarking (Consistency)
15 論文 | 1 ベンチマーク
Date Understanding
14 論文 | 0 ベンチマーク
Visual Commonsense Reasoning
14 論文 | 7 ベンチマーク
Formal Logic
13 論文 | 1 ベンチマーク
Automated Theorem Proving
11 論文 | 9 ベンチマーク
Arithmetic Reasoning
9 論文 | 5 ベンチマーク
Error Understanding
9 論文 | 2 ベンチマーク
Logical Sequence
9 論文 | 0 ベンチマーク
Mathematical Induction
9 論文 | 1 ベンチマーク
Physical Commonsense Reasoning
9 論文 | 1 ベンチマーク
Analogical Similarity
7 論文 | 1 ベンチマーク
Autonomous Web Navigation
7 論文 | 0 ベンチマーク
Causal Judgment
7 論文 | 0 ベンチマーク
Elementary Mathematics
7 論文 | 1 ベンチマーク
Logical Reasoning
7 論文 | 10 ベンチマーク
Theory of Mind Modeling
7 論文 | 0 ベンチマーク
GitHub issue resolution
6 論文 | 0 ベンチマーク
Logical Fallacy Detection
6 論文 | 0 ベンチマーク
Math Word Problem Solving
6 論文 | 13 ベンチマーク
Multimodal Reasoning
6 論文 | 3 ベンチマーク
Visual Entailment
6 論文 | 3 ベンチマーク
Human Judgment Correlation
5 論文 | 2 ベンチマーク
Winowhy
5 論文 | 0 ベンチマーク
Checkmate In One
4 論文 | 0 ベンチマーク
High School Mathematics
4 論文 | 1 ベンチマーク
Penguins In A Table
4 論文 | 0 ベンチマーク
Anachronisms
3 論文 | 0 ベンチマーク
College Mathematics
3 論文 | 1 ベンチマーク
Conformal Prediction
3 論文 | 0 ベンチマーク
Crass AI
3 論文 | 1 ベンチマーク
Reasoning About Colored Objects
3 論文 | 0 ベンチマーク
Analytic Entailment
2 論文 | 1 ベンチマーク
Crash Blossom
2 論文 | 1 ベンチマーク
Entailed Polarity
2 論文 | 1 ベンチマーク
Evaluating Information Essentiality
2 論文 | 1 ベンチマーク
Human Judgment Classification
2 論文 | 1 ベンチマーク
Identify Odd Metapor
2 論文 | 1 ベンチマーク
Logical Args
2 論文 | 1 ベンチマーク
Metaphor Boolean
2 論文 | 1 ベンチマーク
Novel Concepts
2 論文 | 0 ベンチマーク
Presuppositions As NLI
2 論文 | 1 ベンチマーク
Code Line Descriptions
1 論文 | 0 ベンチマーク
Commonsense Reasoning for RL
1 論文 | 1 ベンチマーク
Pre-election ratings estimation
1 論文 | 0 ベンチマーク
Professional Accounting
1 論文 | 1 ベンチマーク