HyperAI

Question Answering

Benchmark-Liste

Alle Benchmarks für diese Aufgabe

jd-product-question-answer
Bestes Modell: PAAG

Metriken

Details anzeigen
aristo-kaggle-allen-ai-8th-grade-questions
Bestes Modell: Cardal

Metriken

Details anzeigen
aviationqa
Bestes Modell: KGT5

Metriken

Details anzeigen
babi
Bestes Modell: STM

Metriken

Details anzeigen
bioasq
Bestes Modell: BioLinkBERT (large)

Metriken

Details anzeigen
blurb
Bestes Modell: BioLinkBERT (large)

Metriken

Details anzeigen
boolq
Bestes Modell: Gemma-7B

Metriken

Details anzeigen
casehold
Bestes Modell: Custom Legal-BERT

Metriken

Details anzeigen
catbabi-lm-mode
Bestes Modell: Fast Weight Memory

Metriken

Details anzeigen
catbabi
Bestes Modell: Fast Weight Memory

Metriken

Details anzeigen
chaii-hindi-and-tamil-question-answering
Bestes Modell: MuCoT

Metriken

Details anzeigen
children-s-book-test
Bestes Modell: NSE

Metriken

Details anzeigen
clicr
Bestes Modell: Gated-Attention Reader

Metriken

Details anzeigen
codah
Bestes Modell: G-DAUG-Combo + RoBERTa-Large

Metriken

Details anzeigen
complex-cronquestions
Bestes Modell: SubGTR

Metriken

Details anzeigen
complexquestions
Bestes Modell: WebQA

Metriken

Details anzeigen
complexwebquestions
Bestes Modell: TOME-2

Metriken

Details anzeigen
conditionalqa
Bestes Modell: FiD

Metriken

Details anzeigen
copa
Bestes Modell: PaLM 540B (finetuned)

Metriken

Details anzeigen
coqa
Bestes Modell: GPT-3 175B (few-shot, k=32)

Metriken

Details anzeigen
drop-test
Bestes Modell: QDGAT (ensemble)

Metriken

Details anzeigen
duorc
Bestes Modell: Vector Database (ChromaDB)

Metriken

Details anzeigen
fairytaleqa
Bestes Modell: BART fine-tuned on FairytaleQA

Metriken

Details anzeigen
finqa
Bestes Modell: ELASTIC (RoBERTa-large)

Metriken

Details anzeigen
geoquestions1089
Bestes Modell: GeoQA2

Metriken

Details anzeigen
graphquestions
Bestes Modell: ChatGPT

Metriken

Details anzeigen
hotpotqa
Bestes Modell: Beam Retrieval

Metriken

Details anzeigen
hotpotqa-beir
Bestes Modell: BM25+CE

Metriken

Details anzeigen
hybridqa
Bestes Modell: MAFiD

Metriken

Details anzeigen
jaquad
Bestes Modell: BERT-Japanese

Metriken

Details anzeigen
mapeval-api
Bestes Modell: Claude-3.5-Sonnet (ReAct)

Metriken

Details anzeigen
mathematics
Bestes Modell: TP-Transformer

Metriken

Details anzeigen
mctest-160
Bestes Modell: syntax, frame, coreference, and word embedding features

Metriken

Details anzeigen
medmcqa-dev
Bestes Modell: MedMobile (3.8B)

Metriken

Details anzeigen
medqa-usmle
Bestes Modell: DRAGON + BioLinkBERT

Metriken

Details anzeigen
metaqa
Bestes Modell: T5-small+prolog

Metriken

Details anzeigen
mrqa-out-of-domain
Bestes Modell: RGX

Metriken

Details anzeigen
multirc
Bestes Modell: PaLM 540B (finetuned)

Metriken

Details anzeigen
multispanqa
Bestes Modell: RoBERTa-large Tagger + LIQUID (Ensemble)

Metriken

Details anzeigen
narrativeqa
Bestes Modell: Masque (NarrativeQA + MS MARCO)

Metriken

Details anzeigen
natural-questions
Bestes Modell: Atlas (full, Wiki-dec-2018 index)

Metriken

Details anzeigen
natural-questions-long
Bestes Modell: DensePhrases

Metriken

Details anzeigen
naturalqa
Bestes Modell: DPR

Metriken

Details anzeigen
newsqa
Bestes Modell: OpenAI/o3-mini-2025-01-31-high

Metriken

Details anzeigen
obqa
Bestes Modell: FLAN 137B (zero-shot)

Metriken

Details anzeigen
ott-qa
Bestes Modell: Fusion Retriever+ETC

Metriken

Details anzeigen
peerqa
Bestes Modell: GPT-4o-2024-08-06-128k

Metriken

Details anzeigen
piqa
Bestes Modell: LLaMA 65B (0-shot)

Metriken

Details anzeigen
popqa
Bestes Modell: SelfRAG-7b

Metriken

Details anzeigen
pubchemqa
Bestes Modell: BioMedGPT-10B

Metriken

Details anzeigen
pubmedqa
Bestes Modell: BioGPT-Large(1.5B)

Metriken

Details anzeigen
qasent
Bestes Modell: Attentive LSTM

Metriken

Details anzeigen
qasper
Bestes Modell: Longformer Encoder Decoder (base)

Metriken

Details anzeigen
quac
Bestes Modell: FlowQA (single model)

Metriken

Details anzeigen
quora-question-pairs
Bestes Modell: DeBERTa (large)

Metriken

Details anzeigen
recipeqa
Bestes Modell: multimodal+LXMERT+ConstrainedMaxPooling

Metriken

Details anzeigen
reclor
Bestes Modell: XLNet-large

Metriken

Details anzeigen
semevalcqa
Bestes Modell: HyperQA

Metriken

Details anzeigen
social-iqa
Bestes Modell: LLaMA 65B (zero-shot)

Metriken

Details anzeigen
sqa3d
Bestes Modell: CREMA

Metriken

Details anzeigen
squad1-1
Bestes Modell: LUKE

Metriken

Details anzeigen
squad1-1-dev
Bestes Modell: T5-11B

Metriken

Details anzeigen
squad2-0-dev
Bestes Modell: XLNet (single model)

Metriken

Details anzeigen
stepgame
Bestes Modell: TP-MANN

Metriken

Details anzeigen
story-cloze
Bestes Modell: Neo-6B (QA + WS)

Metriken

Details anzeigen
storycloze
Bestes Modell: BLOOMZ

Metriken

Details anzeigen
strategyqa
Bestes Modell: PaLM 2 (few-shot, CoT, SC)

Metriken

Details anzeigen
swag
Bestes Modell: DeBERTaV3large

Metriken

Details anzeigen
tat-qa
Bestes Modell: TagOp

Metriken

Details anzeigen
tempquestions
Bestes Modell: QAap

Metriken

Details anzeigen
torque
Bestes Modell: ECONET

Metriken

Details anzeigen
trecqa
Bestes Modell: TANDA DeBERTa-V3-Large + ALL

Metriken

Details anzeigen
triviaqa
Bestes Modell: PaLM 2-L (one-shot)

Metriken

Details anzeigen
truthfulqa
Bestes Modell: CoA

Metriken

Details anzeigen
tweetqa
Bestes Modell: ByT5

Metriken

Details anzeigen
vnhsge-civic
Bestes Modell: Bing Chat

Metriken

Details anzeigen
webquestions
Bestes Modell: FiE+PAQ

Metriken

Details anzeigen
webquestionssp
Bestes Modell: ChatGPT

Metriken

Details anzeigen
wikihop
Bestes Modell: BigBird-etc

Metriken

Details anzeigen
wikiqa
Bestes Modell: TANDA-RoBERTa (ASNQ, WikiQA)

Metriken

Details anzeigen
wikitablequestions
Bestes Modell: TabSQLify (col+row)

Metriken

Details anzeigen
yahoocqa
Bestes Modell: sMIM (1024) +

Metriken

Details anzeigen
adversarial-qa

Metriken

Details anzeigen
agi-eval

Metriken

Details anzeigen
ai2-kaggle-dataset

Metriken

Details anzeigen
bamboogle

Metriken

Details anzeigen
bbh

Metriken

Details anzeigen
chegeka

Metriken

Details anzeigen
cnn-daily-mail

Metriken

Details anzeigen
coco-visual-question-answering-vqa-real-1

Metriken

Details anzeigen
convfinqa

Metriken

Details anzeigen
cronquestions

Metriken

Details anzeigen
danetqa

Metriken

Details anzeigen
drop

Metriken

Details anzeigen
efficientqa-dev

Metriken

Details anzeigen
efficientqa-test

Metriken

Details anzeigen
egotaskqa

Metriken

Details anzeigen
fever

Metriken

Details anzeigen
fiqa-2018-beir

Metriken

Details anzeigen
fquad

Metriken

Details anzeigen
friendsqa

Metriken

Details anzeigen
hellaswag

Metriken

Details anzeigen
kilt-eli5

Metriken

Details anzeigen
kqa-pro

Metriken

Details anzeigen
mapeval-textual

Metriken

Details anzeigen
mctest-500

Metriken

Details anzeigen
medturkquad-medical-turkish-question

Metriken

Details anzeigen
mmlu

Metriken

Details anzeigen
molweni

Metriken

Details anzeigen
mrqa-2019

Metriken

Details anzeigen
ms-marco

Metriken

Details anzeigen
muld-hotpotqa

Metriken

Details anzeigen
muld-narrativeqa

Metriken

Details anzeigen
multiq

Metriken

Details anzeigen
multitq

Metriken

Details anzeigen
next-qa-open-ended-videoqa

Metriken

Details anzeigen
nq-beir

Metriken

Details anzeigen
openbookqa

Metriken

Details anzeigen
quality

Metriken

Details anzeigen
quasart-t

Metriken

Details anzeigen
race

Metriken

Details anzeigen
reverb

Metriken

Details anzeigen
ruopenbookqa

Metriken

Details anzeigen
sberquad

Metriken

Details anzeigen
scde

Metriken

Details anzeigen
schizzosquad

Metriken

Details anzeigen
simplequestions

Metriken

Details anzeigen
squad

Metriken

Details anzeigen
squad-adversarial

Metriken

Details anzeigen
squad-v2

Metriken

Details anzeigen
squad2-0

Metriken

Details anzeigen
squadshifts-amazon

Metriken

Details anzeigen
squadshifts-new-wiki

Metriken

Details anzeigen
squadshifts-nyt

Metriken

Details anzeigen
squadshifts-reddit

Metriken

Details anzeigen
tempqa-wd

Metriken

Details anzeigen
timequestions

Metriken

Details anzeigen
tiq

Metriken

Details anzeigen
uniprotqa

Metriken

Details anzeigen
vnhsge-biology

Metriken

Details anzeigen
vnhsge-chemistry

Metriken

Details anzeigen
vnhsge-english

Metriken

Details anzeigen
vnhsge-geography

Metriken

Details anzeigen
vnhsge-history

Metriken

Details anzeigen
vnhsge-literature

Metriken

Details anzeigen
vnhsge-mathematics-1

Metriken

Details anzeigen
vnhsge-physics

Metriken

Details anzeigen
websrc

Metriken

Details anzeigen
wikisql

Metriken

Details anzeigen