HyperAI초신경
홈
뉴스
최신 연구 논문
튜토리얼
데이터셋
컨퍼런스
백과사전
SOTA
LLM 모델
전체 검색
소개
한국어
HyperAI초신경
Toggle sidebar
전체 사이트 검색...
⌘
K
홈
SOTA
Multi Task Language Understanding
Multi Task Language Understanding
벤치마크 목록
해당 작업에 관련된 모든 벤치마크 목록
bbh-alg
최고 모델: code-davinci-002 175B (CoT)
평가 지표
세부 정보 보기
bbh-nlp
최고 모델: Flan-PaLM 540B (3-shot, fine-tuned, CoT + SC)
평가 지표
세부 정보 보기
mgsm
평가 지표
세부 정보 보기
mmlu
최고 모델: ds-r1(671b)
평가 지표
세부 정보 보기
mmlu-5-shot
최고 모델: Sakalti/ultiima-78B
평가 지표
세부 정보 보기