Llm
주요 AI 모델의 다양한 작업에 대한 성능 지표 비교, 최첨단 기술 수준 제시
AI 모델 성능 벤치마크
주요 AI 모델의 다양한 작업에 대한 성능 지표 비교, 최첨단 기술 수준 제시
multimodal
78개 논문 | 0개 벤치마크
reasoning
60개 논문 | 0개 벤치마크
understanding
47개 논문 | 0개 벤치마크
other
35개 논문 | 0개 벤치마크
knowledge
27개 논문 | 0개 벤치마크
agent
24개 논문 | 0개 벤치마크
code
20개 논문 | 0개 벤치마크
math
20개 논문 | 0개 벤치마크
language
19개 논문 | 0개 벤치마크
examination
17개 논문 | 0개 벤치마크
safety
17개 논문 | 0개 벤치마크
strong reasoning
15개 논문 | 0개 벤치마크
long-context
10개 논문 | 0개 벤치마크
creation
6개 논문 | 0개 벤치마크
instruct
5개 논문 | 0개 벤치마크