HyperAI초신경

Reasoning

주요 AI 모델의 다양한 작업에 대한 성능 지표 비교, 최첨단 기술 수준 제시

AI 모델 성능 벤치마크

주요 AI 모델의 다양한 작업에 대한 성능 지표 비교, 최첨단 기술 수준 제시

ARC

50개 논문 | 0개 벤치마크

Discrete Choice Models

50개 논문 | 0개 벤치마크

3D Human Reconstruction

48개 논문 | 10개 벤치마크

Causal Identification

46개 논문 | 0개 벤치마크

Common Sense Reasoning

45개 논문 | 24개 벤치마크

Task Planning

42개 논문 | 0개 벤치마크

StrategyQA

39개 논문 | 0개 벤치마크

Decision Making Under Uncertainty

38개 논문 | 0개 벤치마크

Temporal Sequences

35개 논문 | 1개 벤치마크

Physical Intuition

33개 논문 | 1개 벤치마크

Assortment Optimization

32개 논문 | 0개 벤치마크

Natural Language Visual Grounding

32개 논문 | 1개 벤치마크

Missing Labels

30개 논문 | 0개 벤치마크

Model-based Reinforcement Learning

30개 논문 | 0개 벤치마크

Abstract Argumentation

25개 논문 | 0개 벤치마크

Zero-Shot Video Question Answer

25개 논문 | 16개 벤치마크

Visual Reasoning

24개 논문 | 12개 벤치마크

Systematic Generalization

22개 논문 | 0개 벤치마크

Decision Making

20개 논문 | 1개 벤치마크

Geometry Problem Solving

20개 논문 | 0개 벤치마크

Odd One Out

20개 논문 | 1개 벤치마크

Video-based Generative Performance Benchmarking

20개 논문 | 1개 벤치마크

Abstract Algebra

18개 논문 | 1개 벤치마크

Program Repair

18개 논문 | 3개 벤치마크

Image Paragraph Captioning

17개 논문 | 1개 벤치마크

Navigate

16개 논문 | 0개 벤치마크

Video-based Generative Performance Benchmarking (Contextual Understanding)

16개 논문 | 1개 벤치마크

Video-based Generative Performance Benchmarking (Correctness of Information)

15개 논문 | 1개 벤치마크

Video-based Generative Performance Benchmarking (Detail Orientation))

15개 논문 | 1개 벤치마크

Video-based Generative Performance Benchmarking (Temporal Understanding)

15개 논문 | 1개 벤치마크

Video-based Generative Performance Benchmarking (Consistency)

15개 논문 | 1개 벤치마크

Date Understanding

14개 논문 | 0개 벤치마크

Visual Commonsense Reasoning

14개 논문 | 7개 벤치마크

Formal Logic

13개 논문 | 1개 벤치마크

Automated Theorem Proving

11개 논문 | 9개 벤치마크

Arithmetic Reasoning

9개 논문 | 5개 벤치마크

Error Understanding

9개 논문 | 2개 벤치마크

Logical Sequence

9개 논문 | 0개 벤치마크

Mathematical Induction

9개 논문 | 1개 벤치마크

Physical Commonsense Reasoning

9개 논문 | 1개 벤치마크

Analogical Similarity

7개 논문 | 1개 벤치마크

Autonomous Web Navigation

7개 논문 | 0개 벤치마크

Causal Judgment

7개 논문 | 0개 벤치마크

Elementary Mathematics

7개 논문 | 1개 벤치마크

Logical Reasoning

7개 논문 | 10개 벤치마크

Theory of Mind Modeling

7개 논문 | 0개 벤치마크

GitHub issue resolution

6개 논문 | 0개 벤치마크

Logical Fallacy Detection

6개 논문 | 0개 벤치마크

Math Word Problem Solving

6개 논문 | 13개 벤치마크

Multimodal Reasoning

6개 논문 | 3개 벤치마크

Visual Entailment

6개 논문 | 3개 벤치마크

Human Judgment Correlation

5개 논문 | 2개 벤치마크

Winowhy

5개 논문 | 0개 벤치마크

Checkmate In One

4개 논문 | 0개 벤치마크

High School Mathematics

4개 논문 | 1개 벤치마크

Penguins In A Table

4개 논문 | 0개 벤치마크

Anachronisms

3개 논문 | 0개 벤치마크

College Mathematics

3개 논문 | 1개 벤치마크

Conformal Prediction

3개 논문 | 0개 벤치마크

Crass AI

3개 논문 | 1개 벤치마크

Reasoning About Colored Objects

3개 논문 | 0개 벤치마크

Analytic Entailment

2개 논문 | 1개 벤치마크

Crash Blossom

2개 논문 | 1개 벤치마크

Entailed Polarity

2개 논문 | 1개 벤치마크

Evaluating Information Essentiality

2개 논문 | 1개 벤치마크

Human Judgment Classification

2개 논문 | 1개 벤치마크

Identify Odd Metapor

2개 논문 | 1개 벤치마크

Logical Args

2개 논문 | 1개 벤치마크

Metaphor Boolean

2개 논문 | 1개 벤치마크

Novel Concepts

2개 논문 | 0개 벤치마크

Presuppositions As NLI

2개 논문 | 1개 벤치마크

Code Line Descriptions

1개 논문 | 0개 벤치마크

Commonsense Reasoning for RL

1개 논문 | 1개 벤치마크

Pre-election ratings estimation

1개 논문 | 0개 벤치마크

Professional Accounting

1개 논문 | 1개 벤치마크