Question Answering
Benchmark-Liste
Alle Benchmarks für diese Aufgabe
jd-product-question-answer
Bestes Modell: PAAG
Metriken
Details anzeigen
aristo-kaggle-allen-ai-8th-grade-questions
Bestes Modell: Cardal
Metriken
Details anzeigen
aviationqa
Bestes Modell: KGT5
Metriken
Details anzeigen
babi
Bestes Modell: STM
Metriken
Details anzeigen
bioasq
Bestes Modell: BioLinkBERT (large)
Metriken
Details anzeigen
blurb
Bestes Modell: BioLinkBERT (large)
Metriken
Details anzeigen
boolq
Bestes Modell: Gemma-7B
Metriken
Details anzeigen
casehold
Bestes Modell: Custom Legal-BERT
Metriken
Details anzeigen
catbabi-lm-mode
Bestes Modell: Fast Weight Memory
Metriken
Details anzeigen
catbabi
Bestes Modell: Fast Weight Memory
Metriken
Details anzeigen
chaii-hindi-and-tamil-question-answering
Bestes Modell: MuCoT
Metriken
Details anzeigen
children-s-book-test
Bestes Modell: NSE
Metriken
Details anzeigen
clicr
Bestes Modell: Gated-Attention Reader
Metriken
Details anzeigen
codah
Bestes Modell: G-DAUG-Combo + RoBERTa-Large
Metriken
Details anzeigen
complex-cronquestions
Bestes Modell: SubGTR
Metriken
Details anzeigen
complexquestions
Bestes Modell: WebQA
Metriken
Details anzeigen
complexwebquestions
Bestes Modell: TOME-2
Metriken
Details anzeigen
conditionalqa
Bestes Modell: FiD
Metriken
Details anzeigen
copa
Bestes Modell: PaLM 540B (finetuned)
Metriken
Details anzeigen
coqa
Bestes Modell: GPT-3 175B (few-shot, k=32)
Metriken
Details anzeigen
drop-test
Bestes Modell: QDGAT (ensemble)
Metriken
Details anzeigen
duorc
Bestes Modell: Vector Database (ChromaDB)
Metriken
Details anzeigen
fairytaleqa
Bestes Modell: BART fine-tuned on FairytaleQA
Metriken
Details anzeigen
finqa
Bestes Modell: ELASTIC (RoBERTa-large)
Metriken
Details anzeigen
geoquestions1089
Bestes Modell: GeoQA2
Metriken
Details anzeigen
graphquestions
Bestes Modell: ChatGPT
Metriken
Details anzeigen
hotpotqa
Bestes Modell: Beam Retrieval
Metriken
Details anzeigen
hotpotqa-beir
Bestes Modell: BM25+CE
Metriken
Details anzeigen
hybridqa
Bestes Modell: MAFiD
Metriken
Details anzeigen
jaquad
Bestes Modell: BERT-Japanese
Metriken
Details anzeigen
mapeval-api
Bestes Modell: Claude-3.5-Sonnet (ReAct)
Metriken
Details anzeigen
mathematics
Bestes Modell: TP-Transformer
Metriken
Details anzeigen
mctest-160
Bestes Modell: syntax, frame, coreference, and word embedding features
Metriken
Details anzeigen
medmcqa-dev
Bestes Modell: MedMobile (3.8B)
Metriken
Details anzeigen
medqa-usmle
Bestes Modell: DRAGON + BioLinkBERT
Metriken
Details anzeigen
metaqa
Bestes Modell: T5-small+prolog
Metriken
Details anzeigen
mrqa-out-of-domain
Bestes Modell: RGX
Metriken
Details anzeigen
multirc
Bestes Modell: PaLM 540B (finetuned)
Metriken
Details anzeigen
multispanqa
Bestes Modell: RoBERTa-large Tagger + LIQUID (Ensemble)
Metriken
Details anzeigen
narrativeqa
Bestes Modell: Masque (NarrativeQA + MS MARCO)
Metriken
Details anzeigen
natural-questions
Bestes Modell: Atlas (full, Wiki-dec-2018 index)
Metriken
Details anzeigen
natural-questions-long
Bestes Modell: DensePhrases
Metriken
Details anzeigen
naturalqa
Bestes Modell: DPR
Metriken
Details anzeigen
newsqa
Bestes Modell: OpenAI/o3-mini-2025-01-31-high
Metriken
Details anzeigen
obqa
Bestes Modell: FLAN 137B (zero-shot)
Metriken
Details anzeigen
ott-qa
Bestes Modell: Fusion Retriever+ETC
Metriken
Details anzeigen
peerqa
Bestes Modell: GPT-4o-2024-08-06-128k
Metriken
Details anzeigen
piqa
Bestes Modell: LLaMA 65B (0-shot)
Metriken
Details anzeigen
popqa
Bestes Modell: SelfRAG-7b
Metriken
Details anzeigen
pubchemqa
Bestes Modell: BioMedGPT-10B
Metriken
Details anzeigen
pubmedqa
Bestes Modell: BioGPT-Large(1.5B)
Metriken
Details anzeigen
qasent
Bestes Modell: Attentive LSTM
Metriken
Details anzeigen
qasper
Bestes Modell: Longformer Encoder Decoder (base)
Metriken
Details anzeigen
quac
Bestes Modell: FlowQA (single model)
Metriken
Details anzeigen
quora-question-pairs
Bestes Modell: DeBERTa (large)
Metriken
Details anzeigen
recipeqa
Bestes Modell: multimodal+LXMERT+ConstrainedMaxPooling
Metriken
Details anzeigen
reclor
Bestes Modell: XLNet-large
Metriken
Details anzeigen
semevalcqa
Bestes Modell: HyperQA
Metriken
Details anzeigen
social-iqa
Bestes Modell: LLaMA 65B (zero-shot)
Metriken
Details anzeigen
sqa3d
Bestes Modell: CREMA
Metriken
Details anzeigen
squad1-1
Bestes Modell: LUKE
Metriken
Details anzeigen
squad1-1-dev
Bestes Modell: T5-11B
Metriken
Details anzeigen
squad2-0-dev
Bestes Modell: XLNet (single model)
Metriken
Details anzeigen
stepgame
Bestes Modell: TP-MANN
Metriken
Details anzeigen
story-cloze
Bestes Modell: Neo-6B (QA + WS)
Metriken
Details anzeigen
storycloze
Bestes Modell: BLOOMZ
Metriken
Details anzeigen
strategyqa
Bestes Modell: PaLM 2 (few-shot, CoT, SC)
Metriken
Details anzeigen
swag
Bestes Modell: DeBERTaV3large
Metriken
Details anzeigen
tat-qa
Bestes Modell: TagOp
Metriken
Details anzeigen
tempquestions
Bestes Modell: QAap
Metriken
Details anzeigen
torque
Bestes Modell: ECONET
Metriken
Details anzeigen
trecqa
Bestes Modell: TANDA DeBERTa-V3-Large + ALL
Metriken
Details anzeigen
triviaqa
Bestes Modell: PaLM 2-L (one-shot)
Metriken
Details anzeigen
truthfulqa
Bestes Modell: CoA
Metriken
Details anzeigen
tweetqa
Bestes Modell: ByT5
Metriken
Details anzeigen
vnhsge-civic
Bestes Modell: Bing Chat
Metriken
Details anzeigen
webquestions
Bestes Modell: FiE+PAQ
Metriken
Details anzeigen
webquestionssp
Bestes Modell: ChatGPT
Metriken
Details anzeigen
wikihop
Bestes Modell: BigBird-etc
Metriken
Details anzeigen
wikiqa
Bestes Modell: TANDA-RoBERTa (ASNQ, WikiQA)
Metriken
Details anzeigen
wikitablequestions
Bestes Modell: TabSQLify (col+row)
Metriken
Details anzeigen
yahoocqa
Bestes Modell: sMIM (1024) +
Metriken
Details anzeigen
adversarial-qa
Metriken
Details anzeigen
agi-eval
Metriken
Details anzeigen
ai2-kaggle-dataset
Metriken
Details anzeigen
bamboogle
Metriken
Details anzeigen
bbh
Metriken
Details anzeigen
chegeka
Metriken
Details anzeigen
cnn-daily-mail
Metriken
Details anzeigen
coco-visual-question-answering-vqa-real-1
Metriken
Details anzeigen
convfinqa
Metriken
Details anzeigen
cronquestions
Metriken
Details anzeigen
danetqa
Metriken
Details anzeigen
drop
Metriken
Details anzeigen
efficientqa-dev
Metriken
Details anzeigen
efficientqa-test
Metriken
Details anzeigen
egotaskqa
Metriken
Details anzeigen
fever
Metriken
Details anzeigen
fiqa-2018-beir
Metriken
Details anzeigen
fquad
Metriken
Details anzeigen
friendsqa
Metriken
Details anzeigen
hellaswag
Metriken
Details anzeigen
kilt-eli5
Metriken
Details anzeigen
kqa-pro
Metriken
Details anzeigen
mapeval-textual
Metriken
Details anzeigen
mctest-500
Metriken
Details anzeigen
medturkquad-medical-turkish-question
Metriken
Details anzeigen
mmlu
Metriken
Details anzeigen
molweni
Metriken
Details anzeigen
mrqa-2019
Metriken
Details anzeigen
ms-marco
Metriken
Details anzeigen
muld-hotpotqa
Metriken
Details anzeigen
muld-narrativeqa
Metriken
Details anzeigen
multiq
Metriken
Details anzeigen
multitq
Metriken
Details anzeigen
next-qa-open-ended-videoqa
Metriken
Details anzeigen
nq-beir
Metriken
Details anzeigen
openbookqa
Metriken
Details anzeigen
quality
Metriken
Details anzeigen
quasart-t
Metriken
Details anzeigen
race
Metriken
Details anzeigen
reverb
Metriken
Details anzeigen
ruopenbookqa
Metriken
Details anzeigen
sberquad
Metriken
Details anzeigen
scde
Metriken
Details anzeigen
schizzosquad
Metriken
Details anzeigen
simplequestions
Metriken
Details anzeigen
squad
Metriken
Details anzeigen
squad-adversarial
Metriken
Details anzeigen
squad-v2
Metriken
Details anzeigen
squad2-0
Metriken
Details anzeigen
squadshifts-amazon
Metriken
Details anzeigen
squadshifts-new-wiki
Metriken
Details anzeigen
squadshifts-nyt
Metriken
Details anzeigen
squadshifts-reddit
Metriken
Details anzeigen
tempqa-wd
Metriken
Details anzeigen
timequestions
Metriken
Details anzeigen
tiq
Metriken
Details anzeigen
uniprotqa
Metriken
Details anzeigen
vnhsge-biology
Metriken
Details anzeigen
vnhsge-chemistry
Metriken
Details anzeigen
vnhsge-english
Metriken
Details anzeigen
vnhsge-geography
Metriken
Details anzeigen
vnhsge-history
Metriken
Details anzeigen
vnhsge-literature
Metriken
Details anzeigen
vnhsge-mathematics-1
Metriken
Details anzeigen
vnhsge-physics
Metriken
Details anzeigen
websrc
Metriken
Details anzeigen
wikisql
Metriken
Details anzeigen