Question Answering On Copa

평가 지표

Accuracy

평가 결과

이 벤치마크에서 각 모델의 성능 결과

모델 이름	Accuracy	Paper Title	Repository
RoBERTa-Winogrande-ft 355M (fine-tuned)	90.6	WinoGrande: An Adversarial Winograd Schema Challenge at Scale
HASH Layers 10B (0-shot)	64	Efficient Language Modeling with Sparse all-MLP	-
FLAN 137B (prompt-tuned)	94	Finetuned Language Models Are Zero-Shot Learners
RoBERTa-ft 355M (fine-tuned)	86.4	WinoGrande: An Adversarial Winograd Schema Challenge at Scale
FLAN 137B (zero-shot)	91	Finetuned Language Models Are Zero-Shot Learners
ST-MoE-L 4.1B (fine-tuned)	91	ST-MoE: Designing Stable and Transferable Sparse Expert Models
T5-XL 3B (fine-tuned)	92	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
GPT-3 175B (few-shot, k=32)	92	Language Models are Few-Shot Learners
Hybrid H3 125M (0-shot, rank classification)	67	Hungry Hungry Hippos: Towards Language Modeling with State Space Models
Vega v2 6B (KD-based prompt transfer)	99.4	Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE	-
H3 125M (0-shot, rank classification)	51	Hungry Hungry Hippos: Towards Language Modeling with State Space Models
T5-XXL 11B (fine-tuned)	94.8	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
T0-3B (CoT fine-tuned)	90.9	The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning
Causal Strength Computation (on ClueWeb12)	69.9	-	-
Neo-6B (few-shot)	77.0	Ask Me Anything: A simple strategy for prompting language models
KiC-770M	85.30	Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models	-
Turing NLR v5 XXL 5.4B (fine-tuned)	98.2	Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE	-
ST-MoE-32B 269B (fine-tuned)	99.2	ST-MoE: Designing Stable and Transferable Sparse Expert Models
BERT-large 340M	80.8	SocialIQA: Commonsense Reasoning about Social Interactions
PaLM 2-M (1-shot)	90.0	PaLM 2 Technical Report

0 of 60 row(s) selected.