HyperAI

Reasoning

Leistungsmetriken der Mainstream-KI-Modelle bei verschiedenen Aufgaben, die den neuesten Stand der Technik präsentieren

KI-Modell-Leistungs-Benchmarks

Leistungsmetriken der Mainstream-KI-Modelle bei verschiedenen Aufgaben, die den neuesten Stand der Technik präsentieren

ARC

50 Forschungsarbeiten | 0 Benchmarks

Discrete Choice Models

50 Forschungsarbeiten | 0 Benchmarks

3D Human Reconstruction

48 Forschungsarbeiten | 10 Benchmarks

Causal Identification

46 Forschungsarbeiten | 0 Benchmarks

Common Sense Reasoning

45 Forschungsarbeiten | 24 Benchmarks

Task Planning

42 Forschungsarbeiten | 0 Benchmarks

StrategyQA

39 Forschungsarbeiten | 0 Benchmarks

Decision Making Under Uncertainty

38 Forschungsarbeiten | 0 Benchmarks

Temporal Sequences

35 Forschungsarbeiten | 1 Benchmarks

Physical Intuition

33 Forschungsarbeiten | 1 Benchmarks

Assortment Optimization

32 Forschungsarbeiten | 0 Benchmarks

Natural Language Visual Grounding

32 Forschungsarbeiten | 1 Benchmarks

Missing Labels

30 Forschungsarbeiten | 0 Benchmarks

Model-based Reinforcement Learning

30 Forschungsarbeiten | 0 Benchmarks

Abstract Argumentation

25 Forschungsarbeiten | 0 Benchmarks

Zero-Shot Video Question Answer

25 Forschungsarbeiten | 16 Benchmarks

Visual Reasoning

24 Forschungsarbeiten | 12 Benchmarks

Systematic Generalization

22 Forschungsarbeiten | 0 Benchmarks

Decision Making

20 Forschungsarbeiten | 1 Benchmarks

Geometry Problem Solving

20 Forschungsarbeiten | 0 Benchmarks

Odd One Out

20 Forschungsarbeiten | 1 Benchmarks

Video-based Generative Performance Benchmarking

20 Forschungsarbeiten | 1 Benchmarks

Abstract Algebra

18 Forschungsarbeiten | 1 Benchmarks

Program Repair

18 Forschungsarbeiten | 3 Benchmarks

Image Paragraph Captioning

17 Forschungsarbeiten | 1 Benchmarks

Navigate

16 Forschungsarbeiten | 0 Benchmarks

Video-based Generative Performance Benchmarking (Contextual Understanding)

16 Forschungsarbeiten | 1 Benchmarks

Video-based Generative Performance Benchmarking (Correctness of Information)

15 Forschungsarbeiten | 1 Benchmarks

Video-based Generative Performance Benchmarking (Detail Orientation))

15 Forschungsarbeiten | 1 Benchmarks

Video-based Generative Performance Benchmarking (Temporal Understanding)

15 Forschungsarbeiten | 1 Benchmarks

Video-based Generative Performance Benchmarking (Consistency)

15 Forschungsarbeiten | 1 Benchmarks

Date Understanding

14 Forschungsarbeiten | 0 Benchmarks

Visual Commonsense Reasoning

14 Forschungsarbeiten | 7 Benchmarks

Formal Logic

13 Forschungsarbeiten | 1 Benchmarks

Automated Theorem Proving

11 Forschungsarbeiten | 9 Benchmarks

Arithmetic Reasoning

9 Forschungsarbeiten | 5 Benchmarks

Error Understanding

9 Forschungsarbeiten | 2 Benchmarks

Logical Sequence

9 Forschungsarbeiten | 0 Benchmarks

Mathematical Induction

9 Forschungsarbeiten | 1 Benchmarks

Physical Commonsense Reasoning

9 Forschungsarbeiten | 1 Benchmarks

Analogical Similarity

7 Forschungsarbeiten | 1 Benchmarks

Autonomous Web Navigation

7 Forschungsarbeiten | 0 Benchmarks

Causal Judgment

7 Forschungsarbeiten | 0 Benchmarks

Elementary Mathematics

7 Forschungsarbeiten | 1 Benchmarks

Logical Reasoning

7 Forschungsarbeiten | 10 Benchmarks

Theory of Mind Modeling

7 Forschungsarbeiten | 0 Benchmarks

GitHub issue resolution

6 Forschungsarbeiten | 0 Benchmarks

Logical Fallacy Detection

6 Forschungsarbeiten | 0 Benchmarks

Math Word Problem Solving

6 Forschungsarbeiten | 13 Benchmarks

Multimodal Reasoning

6 Forschungsarbeiten | 3 Benchmarks

Visual Entailment

6 Forschungsarbeiten | 3 Benchmarks

Human Judgment Correlation

5 Forschungsarbeiten | 2 Benchmarks

Winowhy

5 Forschungsarbeiten | 0 Benchmarks

Checkmate In One

4 Forschungsarbeiten | 0 Benchmarks

High School Mathematics

4 Forschungsarbeiten | 1 Benchmarks

Penguins In A Table

4 Forschungsarbeiten | 0 Benchmarks

Anachronisms

3 Forschungsarbeiten | 0 Benchmarks

College Mathematics

3 Forschungsarbeiten | 1 Benchmarks

Conformal Prediction

3 Forschungsarbeiten | 0 Benchmarks

Crass AI

3 Forschungsarbeiten | 1 Benchmarks

Reasoning About Colored Objects

3 Forschungsarbeiten | 0 Benchmarks

Analytic Entailment

2 Forschungsarbeiten | 1 Benchmarks

Crash Blossom

2 Forschungsarbeiten | 1 Benchmarks

Entailed Polarity

2 Forschungsarbeiten | 1 Benchmarks

Evaluating Information Essentiality

2 Forschungsarbeiten | 1 Benchmarks

Human Judgment Classification

2 Forschungsarbeiten | 1 Benchmarks

Identify Odd Metapor

2 Forschungsarbeiten | 1 Benchmarks

Logical Args

2 Forschungsarbeiten | 1 Benchmarks

Metaphor Boolean

2 Forschungsarbeiten | 1 Benchmarks

Novel Concepts

2 Forschungsarbeiten | 0 Benchmarks

Presuppositions As NLI

2 Forschungsarbeiten | 1 Benchmarks

Code Line Descriptions

1 Forschungsarbeiten | 0 Benchmarks

Commonsense Reasoning for RL

1 Forschungsarbeiten | 1 Benchmarks

Pre-election ratings estimation

1 Forschungsarbeiten | 0 Benchmarks

Professional Accounting

1 Forschungsarbeiten | 1 Benchmarks