Question Answering On Drop Test

평가 결과

이 벤치마크에서 각 모델의 성능 결과

		Paper Title	Repository
QDGAT (ensemble)	88.38	Question Directed Graph Attention Network for Numerical Reasoning over Text	-
POET	87.6	Reasoning Like Program Executors
PaLM 2 (few-shot)	85.0	PaLM 2 Technical Report
BERT+Calculator (ensemble)	81.78	Giving BERT a Calculator: Finding Operations and Arguments with Reading Comprehension	-
NeRd	81.71	Neural Symbolic Reader: Scalable Integration of Distributed and Symbolic Representations for Reading Comprehension	-
GPT-4 (few-shot, k=3)	80.9	GPT-4 Technical Report
TASE-BERT	80.7	A Simple and Effective Model for Answering Multi-span Questions
MTMSN Large	79.88	A Multi-Type Multi-Span Network for Reading Comprehension that Requires Discrete Reasoning
GenBERT (+ND+TD)	72.4	Injecting Numerical Reasoning Skills into Language Models
NumNet	67.97	NumNet: Machine Reading Comprehension with Numerical Reasoning
GPT 3.5 (few-shot, k=3)	64.1	GPT-4 Technical Report
Orca 2-7B	60.26	Orca 2: Teaching Small Language Models How to Reason	-
Orca 2-13B	57.97	Orca 2: Teaching Small Language Models How to Reason	-
NAQA Net	47.01	DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs
GPT-3 175B (few-shot, k=32)	36.5	Language Models are Few-Shot Learners
BERT	32.7	DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs

0 of 16 row(s) selected.