HyperAI

Question Answering

Liste des benchmarks

Tous les benchmarks liés à cette tâche

jd-product-question-answer
Meilleur modèle: PAAG

Métriques

Voir les détails
aristo-kaggle-allen-ai-8th-grade-questions
Meilleur modèle: Cardal

Métriques

Voir les détails
aviationqa
Meilleur modèle: KGT5

Métriques

Voir les détails
babi
Meilleur modèle: STM

Métriques

Voir les détails
bioasq
Meilleur modèle: BioLinkBERT (large)

Métriques

Voir les détails
blurb
Meilleur modèle: BioLinkBERT (large)

Métriques

Voir les détails
boolq
Meilleur modèle: Gemma-7B

Métriques

Voir les détails
casehold
Meilleur modèle: Custom Legal-BERT

Métriques

Voir les détails
catbabi-lm-mode
Meilleur modèle: Fast Weight Memory

Métriques

Voir les détails
catbabi
Meilleur modèle: Fast Weight Memory

Métriques

Voir les détails
chaii-hindi-and-tamil-question-answering
Meilleur modèle: MuCoT

Métriques

Voir les détails
children-s-book-test
Meilleur modèle: NSE

Métriques

Voir les détails
clicr
Meilleur modèle: Gated-Attention Reader

Métriques

Voir les détails
codah
Meilleur modèle: G-DAUG-Combo + RoBERTa-Large

Métriques

Voir les détails
complex-cronquestions
Meilleur modèle: SubGTR

Métriques

Voir les détails
complexquestions
Meilleur modèle: WebQA

Métriques

Voir les détails
complexwebquestions
Meilleur modèle: TOME-2

Métriques

Voir les détails
conditionalqa
Meilleur modèle: FiD

Métriques

Voir les détails
copa
Meilleur modèle: PaLM 540B (finetuned)

Métriques

Voir les détails
coqa
Meilleur modèle: GPT-3 175B (few-shot, k=32)

Métriques

Voir les détails
drop-test
Meilleur modèle: QDGAT (ensemble)

Métriques

Voir les détails
duorc
Meilleur modèle: Vector Database (ChromaDB)

Métriques

Voir les détails
fairytaleqa
Meilleur modèle: BART fine-tuned on FairytaleQA

Métriques

Voir les détails
finqa
Meilleur modèle: ELASTIC (RoBERTa-large)

Métriques

Voir les détails
geoquestions1089
Meilleur modèle: GeoQA2

Métriques

Voir les détails
graphquestions
Meilleur modèle: ChatGPT

Métriques

Voir les détails
hotpotqa
Meilleur modèle: Beam Retrieval

Métriques

Voir les détails
hotpotqa-beir
Meilleur modèle: BM25+CE

Métriques

Voir les détails
hybridqa
Meilleur modèle: MAFiD

Métriques

Voir les détails
jaquad
Meilleur modèle: BERT-Japanese

Métriques

Voir les détails
mapeval-api
Meilleur modèle: Claude-3.5-Sonnet (ReAct)

Métriques

Voir les détails
mathematics
Meilleur modèle: TP-Transformer

Métriques

Voir les détails
mctest-160
Meilleur modèle: syntax, frame, coreference, and word embedding features

Métriques

Voir les détails
medmcqa-dev
Meilleur modèle: MedMobile (3.8B)

Métriques

Voir les détails
medqa-usmle
Meilleur modèle: DRAGON + BioLinkBERT

Métriques

Voir les détails
metaqa
Meilleur modèle: T5-small+prolog

Métriques

Voir les détails
mrqa-out-of-domain
Meilleur modèle: RGX

Métriques

Voir les détails
multirc
Meilleur modèle: PaLM 540B (finetuned)

Métriques

Voir les détails
multispanqa
Meilleur modèle: RoBERTa-large Tagger + LIQUID (Ensemble)

Métriques

Voir les détails
narrativeqa
Meilleur modèle: Masque (NarrativeQA + MS MARCO)

Métriques

Voir les détails
natural-questions
Meilleur modèle: Atlas (full, Wiki-dec-2018 index)

Métriques

Voir les détails
natural-questions-long
Meilleur modèle: DensePhrases

Métriques

Voir les détails
naturalqa
Meilleur modèle: DPR

Métriques

Voir les détails
newsqa
Meilleur modèle: OpenAI/o3-mini-2025-01-31-high

Métriques

Voir les détails
obqa
Meilleur modèle: FLAN 137B (zero-shot)

Métriques

Voir les détails
ott-qa
Meilleur modèle: Fusion Retriever+ETC

Métriques

Voir les détails
peerqa
Meilleur modèle: GPT-4o-2024-08-06-128k

Métriques

Voir les détails
piqa
Meilleur modèle: LLaMA 65B (0-shot)

Métriques

Voir les détails
popqa
Meilleur modèle: SelfRAG-7b

Métriques

Voir les détails
pubchemqa
Meilleur modèle: BioMedGPT-10B

Métriques

Voir les détails
pubmedqa
Meilleur modèle: BioGPT-Large(1.5B)

Métriques

Voir les détails
qasent
Meilleur modèle: Attentive LSTM

Métriques

Voir les détails
qasper
Meilleur modèle: Longformer Encoder Decoder (base)

Métriques

Voir les détails
quac
Meilleur modèle: FlowQA (single model)

Métriques

Voir les détails
quora-question-pairs
Meilleur modèle: DeBERTa (large)

Métriques

Voir les détails
recipeqa
Meilleur modèle: multimodal+LXMERT+ConstrainedMaxPooling

Métriques

Voir les détails
reclor
Meilleur modèle: XLNet-large

Métriques

Voir les détails
semevalcqa
Meilleur modèle: HyperQA

Métriques

Voir les détails
social-iqa
Meilleur modèle: LLaMA 65B (zero-shot)

Métriques

Voir les détails
sqa3d
Meilleur modèle: CREMA

Métriques

Voir les détails
squad1-1
Meilleur modèle: LUKE

Métriques

Voir les détails
squad1-1-dev
Meilleur modèle: T5-11B

Métriques

Voir les détails
squad2-0-dev
Meilleur modèle: XLNet (single model)

Métriques

Voir les détails
stepgame
Meilleur modèle: TP-MANN

Métriques

Voir les détails
story-cloze
Meilleur modèle: Neo-6B (QA + WS)

Métriques

Voir les détails
storycloze
Meilleur modèle: BLOOMZ

Métriques

Voir les détails
strategyqa
Meilleur modèle: PaLM 2 (few-shot, CoT, SC)

Métriques

Voir les détails
swag
Meilleur modèle: DeBERTaV3large

Métriques

Voir les détails
tat-qa
Meilleur modèle: TagOp

Métriques

Voir les détails
tempquestions
Meilleur modèle: QAap

Métriques

Voir les détails
torque
Meilleur modèle: ECONET

Métriques

Voir les détails
trecqa
Meilleur modèle: TANDA DeBERTa-V3-Large + ALL

Métriques

Voir les détails
triviaqa
Meilleur modèle: PaLM 2-L (one-shot)

Métriques

Voir les détails
truthfulqa
Meilleur modèle: CoA

Métriques

Voir les détails
tweetqa
Meilleur modèle: ByT5

Métriques

Voir les détails
vnhsge-civic
Meilleur modèle: Bing Chat

Métriques

Voir les détails
webquestions
Meilleur modèle: FiE+PAQ

Métriques

Voir les détails
webquestionssp
Meilleur modèle: ChatGPT

Métriques

Voir les détails
wikihop
Meilleur modèle: BigBird-etc

Métriques

Voir les détails
wikiqa
Meilleur modèle: TANDA-RoBERTa (ASNQ, WikiQA)

Métriques

Voir les détails
wikitablequestions
Meilleur modèle: TabSQLify (col+row)

Métriques

Voir les détails
yahoocqa
Meilleur modèle: sMIM (1024) +

Métriques

Voir les détails
adversarial-qa

Métriques

Voir les détails
agi-eval

Métriques

Voir les détails
ai2-kaggle-dataset

Métriques

Voir les détails
bamboogle

Métriques

Voir les détails
bbh

Métriques

Voir les détails
chegeka

Métriques

Voir les détails
cnn-daily-mail

Métriques

Voir les détails
coco-visual-question-answering-vqa-real-1

Métriques

Voir les détails
convfinqa

Métriques

Voir les détails
cronquestions

Métriques

Voir les détails
danetqa

Métriques

Voir les détails
drop

Métriques

Voir les détails
efficientqa-dev

Métriques

Voir les détails
efficientqa-test

Métriques

Voir les détails
egotaskqa

Métriques

Voir les détails
fever

Métriques

Voir les détails
fiqa-2018-beir

Métriques

Voir les détails
fquad

Métriques

Voir les détails
friendsqa

Métriques

Voir les détails
hellaswag

Métriques

Voir les détails
kilt-eli5

Métriques

Voir les détails
kqa-pro

Métriques

Voir les détails
mapeval-textual

Métriques

Voir les détails
mctest-500

Métriques

Voir les détails
medturkquad-medical-turkish-question

Métriques

Voir les détails
mmlu

Métriques

Voir les détails
molweni

Métriques

Voir les détails
mrqa-2019

Métriques

Voir les détails
ms-marco

Métriques

Voir les détails
muld-hotpotqa

Métriques

Voir les détails
muld-narrativeqa

Métriques

Voir les détails
multiq

Métriques

Voir les détails
multitq

Métriques

Voir les détails
next-qa-open-ended-videoqa

Métriques

Voir les détails
nq-beir

Métriques

Voir les détails
openbookqa

Métriques

Voir les détails
quality

Métriques

Voir les détails
quasart-t

Métriques

Voir les détails
race

Métriques

Voir les détails
reverb

Métriques

Voir les détails
ruopenbookqa

Métriques

Voir les détails
sberquad

Métriques

Voir les détails
scde

Métriques

Voir les détails
schizzosquad

Métriques

Voir les détails
simplequestions

Métriques

Voir les détails
squad

Métriques

Voir les détails
squad-adversarial

Métriques

Voir les détails
squad-v2

Métriques

Voir les détails
squad2-0

Métriques

Voir les détails
squadshifts-amazon

Métriques

Voir les détails
squadshifts-new-wiki

Métriques

Voir les détails
squadshifts-nyt

Métriques

Voir les détails
squadshifts-reddit

Métriques

Voir les détails
tempqa-wd

Métriques

Voir les détails
timequestions

Métriques

Voir les détails
tiq

Métriques

Voir les détails
uniprotqa

Métriques

Voir les détails
vnhsge-biology

Métriques

Voir les détails
vnhsge-chemistry

Métriques

Voir les détails
vnhsge-english

Métriques

Voir les détails
vnhsge-geography

Métriques

Voir les détails
vnhsge-history

Métriques

Voir les détails
vnhsge-literature

Métriques

Voir les détails
vnhsge-mathematics-1

Métriques

Voir les détails
vnhsge-physics

Métriques

Voir les détails
websrc

Métriques

Voir les détails
wikisql

Métriques

Voir les détails