Common Sense Reasoning
벤치마크 목록
해당 작업에 관련된 모든 벤치마크 목록
arc-easy
최고 모델: GAL 120B (0-shot)
평가 지표
세부 정보 보기
big-bench-known-unknowns
최고 모델: PaLM-540B (few-shot, k=5)
평가 지표
세부 정보 보기
big-bench-logical-sequence
최고 모델: Chinchilla-70B (few-shot, k=5)
평가 지표
세부 정보 보기
codah
최고 모델: BERT Large
평가 지표
세부 정보 보기
commonsenseqa
최고 모델: QA-GNN
평가 지표
세부 정보 보기
event2mind-test
최고 모델: EA-VQ-VAE
평가 지표
세부 정보 보기
record
최고 모델: ST-MoE-32B 269B (fine-tuned)
평가 지표
세부 정보 보기
russian-event2mind
최고 모델: araneum word2vec (skipgram) + GRU
평가 지표
세부 정보 보기
swag
최고 모델: DeBERTalarge
평가 지표
세부 정보 보기
visual-dialog-v0-9-1
최고 모델: NMN [kottur2018visual]
평가 지표
세부 정보 보기
winogavil
최고 모델: ViLT
평가 지표
세부 정보 보기
winogrande
최고 모델: PaLM 540B (0-shot)
평가 지표
세부 정보 보기
arc-challenge
평가 지표
세부 정보 보기
big-bench-disambiguation-qa
평가 지표
세부 정보 보기
big-bench-causal-judgment
평가 지표
세부 정보 보기
big-bench-date-understanding
평가 지표
세부 정보 보기
big-bench-sports-understanding
평가 지표
세부 정보 보기
big-bench-winowhy
평가 지표
세부 정보 보기
crowdsource-qa
평가 지표
세부 정보 보기
event2mind-dev
평가 지표
세부 정보 보기
parus
평가 지표
세부 정보 보기
rucos
평가 지표
세부 정보 보기
rwsd
평가 지표
세부 정보 보기
visual-dialog-v0-9
평가 지표
세부 정보 보기