Common Sense Reasoning On Record

평가 지표

평가 결과

이 벤치마크에서 각 모델의 성능 결과

모델 이름	EM	F1	Paper Title	Repository
XLNet + MTL + Verifier (single model)	81.460	82.664	-	-
LUKE-Graph	91.2	91.5	LUKE-Graph: A Transformer-based Approach with Gated Relational Graph Attention for Cloze-style Reading Comprehension	-
FLAN 137B (zero-shot)	72.5	-	Finetuned Language Models Are Zero-Shot Learners
DocQA + ELMo	45.4	46.7	ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension	-
CSRLM (single model)	81.780	82.584	-	-
FLAN 137B (prompt-tuned)	85.1	-	Finetuned Language Models Are Zero-Shot Learners
ST-MoE-L 4.1B (fine-tuned)	88.9	-	ST-MoE: Designing Stable and Transferable Sparse Expert Models
T5-XXL 11B (fine-tuned)	93.4	-	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
GraphBert-NELL (single)	59.410	61.515	-	-
DeBERTa-1.5B	94.1	94.5	DeBERTa: Decoding-enhanced BERT with Disentangled Attention
Switch Transformer 9B	79.9	-	Efficient Language Modeling with Sparse all-MLP	-
PaLM 540B (finetuned)	94.0	94.6	PaLM: Scaling Language Modeling with Pathways
T5-11B	-	94.1	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
Base Layers 10B (0-shot)	60.7	-	Efficient Language Modeling with Sparse all-MLP	-
Vega v2 6B (fine-tuned)	93.9	94.4	Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE	-
XLNet + MTL + Verifier (ensemble)	83.090	83.737	-	-
GPT-3 175B (one-shot)	-	90.2	Large Language Models are Zero-Shot Reasoners
Gshard 9B	72.4	-	Efficient Language Modeling with Sparse all-MLP	-
DCReader+BERT (single model)	69.490	71.138	-	-
GPT-3 Large 760M (0-shot)	82.1	-	Language Models are Few-Shot Learners

0 of 45 row(s) selected.