HyperAI超神経

Reasoning

主流AIモデルの各タスクにおける性能指標比較、最先端技術水準を展示

AIモデル性能ベンチマーク

主流AIモデルの各タスクにおける性能指標比較、最先端技術水準を展示

ARC

50 論文 | 0 ベンチマーク

Discrete Choice Models

50 論文 | 0 ベンチマーク

3D Human Reconstruction

48 論文 | 10 ベンチマーク

Causal Identification

46 論文 | 0 ベンチマーク

Common Sense Reasoning

45 論文 | 24 ベンチマーク

Task Planning

42 論文 | 0 ベンチマーク

StrategyQA

39 論文 | 0 ベンチマーク

Decision Making Under Uncertainty

38 論文 | 0 ベンチマーク

Temporal Sequences

35 論文 | 1 ベンチマーク

Physical Intuition

33 論文 | 1 ベンチマーク

Assortment Optimization

32 論文 | 0 ベンチマーク

Natural Language Visual Grounding

32 論文 | 1 ベンチマーク

Missing Labels

30 論文 | 0 ベンチマーク

Model-based Reinforcement Learning

30 論文 | 0 ベンチマーク

Abstract Argumentation

25 論文 | 0 ベンチマーク

Zero-Shot Video Question Answer

25 論文 | 16 ベンチマーク

Visual Reasoning

24 論文 | 12 ベンチマーク

Systematic Generalization

22 論文 | 0 ベンチマーク

Decision Making

20 論文 | 1 ベンチマーク

Geometry Problem Solving

20 論文 | 0 ベンチマーク

Odd One Out

20 論文 | 1 ベンチマーク

Video-based Generative Performance Benchmarking

20 論文 | 1 ベンチマーク

Abstract Algebra

18 論文 | 1 ベンチマーク

Program Repair

18 論文 | 3 ベンチマーク

Image Paragraph Captioning

17 論文 | 1 ベンチマーク

Navigate

16 論文 | 0 ベンチマーク

Video-based Generative Performance Benchmarking (Contextual Understanding)

16 論文 | 1 ベンチマーク

Video-based Generative Performance Benchmarking (Correctness of Information)

15 論文 | 1 ベンチマーク

Video-based Generative Performance Benchmarking (Detail Orientation))

15 論文 | 1 ベンチマーク

Video-based Generative Performance Benchmarking (Temporal Understanding)

15 論文 | 1 ベンチマーク

Video-based Generative Performance Benchmarking (Consistency)

15 論文 | 1 ベンチマーク

Date Understanding

14 論文 | 0 ベンチマーク

Visual Commonsense Reasoning

14 論文 | 7 ベンチマーク

Formal Logic

13 論文 | 1 ベンチマーク

Automated Theorem Proving

11 論文 | 9 ベンチマーク

Arithmetic Reasoning

9 論文 | 5 ベンチマーク

Error Understanding

9 論文 | 2 ベンチマーク

Logical Sequence

9 論文 | 0 ベンチマーク

Mathematical Induction

9 論文 | 1 ベンチマーク

Physical Commonsense Reasoning

9 論文 | 1 ベンチマーク

Analogical Similarity

7 論文 | 1 ベンチマーク

Autonomous Web Navigation

7 論文 | 0 ベンチマーク

Causal Judgment

7 論文 | 0 ベンチマーク

Elementary Mathematics

7 論文 | 1 ベンチマーク

Logical Reasoning

7 論文 | 10 ベンチマーク

Theory of Mind Modeling

7 論文 | 0 ベンチマーク

GitHub issue resolution

6 論文 | 0 ベンチマーク

Logical Fallacy Detection

6 論文 | 0 ベンチマーク

Math Word Problem Solving

6 論文 | 13 ベンチマーク

Multimodal Reasoning

6 論文 | 3 ベンチマーク

Visual Entailment

6 論文 | 3 ベンチマーク

Human Judgment Correlation

5 論文 | 2 ベンチマーク

Winowhy

5 論文 | 0 ベンチマーク

Checkmate In One

4 論文 | 0 ベンチマーク

High School Mathematics

4 論文 | 1 ベンチマーク

Penguins In A Table

4 論文 | 0 ベンチマーク

Anachronisms

3 論文 | 0 ベンチマーク

College Mathematics

3 論文 | 1 ベンチマーク

Conformal Prediction

3 論文 | 0 ベンチマーク

Crass AI

3 論文 | 1 ベンチマーク

Reasoning About Colored Objects

3 論文 | 0 ベンチマーク

Analytic Entailment

2 論文 | 1 ベンチマーク

Crash Blossom

2 論文 | 1 ベンチマーク

Entailed Polarity

2 論文 | 1 ベンチマーク

Evaluating Information Essentiality

2 論文 | 1 ベンチマーク

Human Judgment Classification

2 論文 | 1 ベンチマーク

Identify Odd Metapor

2 論文 | 1 ベンチマーク

Logical Args

2 論文 | 1 ベンチマーク

Metaphor Boolean

2 論文 | 1 ベンチマーク

Novel Concepts

2 論文 | 0 ベンチマーク

Presuppositions As NLI

2 論文 | 1 ベンチマーク

Code Line Descriptions

1 論文 | 0 ベンチマーク

Commonsense Reasoning for RL

1 論文 | 1 ベンチマーク

Pre-election ratings estimation

1 論文 | 0 ベンチマーク

Professional Accounting

1 論文 | 1 ベンチマーク