Llm
主流AIモデルの各タスクにおける性能指標比較、最先端技術水準を展示
AIモデル性能ベンチマーク
主流AIモデルの各タスクにおける性能指標比較、最先端技術水準を展示
multimodal
78 論文 | 0 ベンチマーク
reasoning
60 論文 | 0 ベンチマーク
understanding
47 論文 | 0 ベンチマーク
other
35 論文 | 0 ベンチマーク
knowledge
27 論文 | 0 ベンチマーク
agent
24 論文 | 0 ベンチマーク
code
20 論文 | 0 ベンチマーク
math
20 論文 | 0 ベンチマーク
language
19 論文 | 0 ベンチマーク
examination
17 論文 | 0 ベンチマーク
safety
17 論文 | 0 ベンチマーク
strong reasoning
15 論文 | 0 ベンチマーク
long-context
10 論文 | 0 ベンチマーク
creation
6 論文 | 0 ベンチマーク
instruct
5 論文 | 0 ベンチマーク