Question Answering
Liste des benchmarks
Tous les benchmarks liés à cette tâche
jd-product-question-answer
Meilleur modèle: PAAG
Métriques
Voir les détails
aristo-kaggle-allen-ai-8th-grade-questions
Meilleur modèle: Cardal
Métriques
Voir les détails
aviationqa
Meilleur modèle: KGT5
Métriques
Voir les détails
babi
Meilleur modèle: STM
Métriques
Voir les détails
bioasq
Meilleur modèle: BioLinkBERT (large)
Métriques
Voir les détails
blurb
Meilleur modèle: BioLinkBERT (large)
Métriques
Voir les détails
boolq
Meilleur modèle: Gemma-7B
Métriques
Voir les détails
casehold
Meilleur modèle: Custom Legal-BERT
Métriques
Voir les détails
catbabi-lm-mode
Meilleur modèle: Fast Weight Memory
Métriques
Voir les détails
catbabi
Meilleur modèle: Fast Weight Memory
Métriques
Voir les détails
chaii-hindi-and-tamil-question-answering
Meilleur modèle: MuCoT
Métriques
Voir les détails
children-s-book-test
Meilleur modèle: NSE
Métriques
Voir les détails
clicr
Meilleur modèle: Gated-Attention Reader
Métriques
Voir les détails
codah
Meilleur modèle: G-DAUG-Combo + RoBERTa-Large
Métriques
Voir les détails
complex-cronquestions
Meilleur modèle: SubGTR
Métriques
Voir les détails
complexquestions
Meilleur modèle: WebQA
Métriques
Voir les détails
complexwebquestions
Meilleur modèle: TOME-2
Métriques
Voir les détails
conditionalqa
Meilleur modèle: FiD
Métriques
Voir les détails
copa
Meilleur modèle: PaLM 540B (finetuned)
Métriques
Voir les détails
coqa
Meilleur modèle: GPT-3 175B (few-shot, k=32)
Métriques
Voir les détails
drop-test
Meilleur modèle: QDGAT (ensemble)
Métriques
Voir les détails
duorc
Meilleur modèle: Vector Database (ChromaDB)
Métriques
Voir les détails
fairytaleqa
Meilleur modèle: BART fine-tuned on FairytaleQA
Métriques
Voir les détails
finqa
Meilleur modèle: ELASTIC (RoBERTa-large)
Métriques
Voir les détails
geoquestions1089
Meilleur modèle: GeoQA2
Métriques
Voir les détails
graphquestions
Meilleur modèle: ChatGPT
Métriques
Voir les détails
hotpotqa
Meilleur modèle: Beam Retrieval
Métriques
Voir les détails
hotpotqa-beir
Meilleur modèle: BM25+CE
Métriques
Voir les détails
hybridqa
Meilleur modèle: MAFiD
Métriques
Voir les détails
jaquad
Meilleur modèle: BERT-Japanese
Métriques
Voir les détails
mapeval-api
Meilleur modèle: Claude-3.5-Sonnet (ReAct)
Métriques
Voir les détails
mathematics
Meilleur modèle: TP-Transformer
Métriques
Voir les détails
mctest-160
Meilleur modèle: syntax, frame, coreference, and word embedding features
Métriques
Voir les détails
medmcqa-dev
Meilleur modèle: MedMobile (3.8B)
Métriques
Voir les détails
medqa-usmle
Meilleur modèle: DRAGON + BioLinkBERT
Métriques
Voir les détails
metaqa
Meilleur modèle: T5-small+prolog
Métriques
Voir les détails
mrqa-out-of-domain
Meilleur modèle: RGX
Métriques
Voir les détails
multirc
Meilleur modèle: PaLM 540B (finetuned)
Métriques
Voir les détails
multispanqa
Meilleur modèle: RoBERTa-large Tagger + LIQUID (Ensemble)
Métriques
Voir les détails
narrativeqa
Meilleur modèle: Masque (NarrativeQA + MS MARCO)
Métriques
Voir les détails
natural-questions
Meilleur modèle: Atlas (full, Wiki-dec-2018 index)
Métriques
Voir les détails
natural-questions-long
Meilleur modèle: DensePhrases
Métriques
Voir les détails
naturalqa
Meilleur modèle: DPR
Métriques
Voir les détails
newsqa
Meilleur modèle: OpenAI/o3-mini-2025-01-31-high
Métriques
Voir les détails
obqa
Meilleur modèle: FLAN 137B (zero-shot)
Métriques
Voir les détails
ott-qa
Meilleur modèle: Fusion Retriever+ETC
Métriques
Voir les détails
peerqa
Meilleur modèle: GPT-4o-2024-08-06-128k
Métriques
Voir les détails
piqa
Meilleur modèle: LLaMA 65B (0-shot)
Métriques
Voir les détails
popqa
Meilleur modèle: SelfRAG-7b
Métriques
Voir les détails
pubchemqa
Meilleur modèle: BioMedGPT-10B
Métriques
Voir les détails
pubmedqa
Meilleur modèle: BioGPT-Large(1.5B)
Métriques
Voir les détails
qasent
Meilleur modèle: Attentive LSTM
Métriques
Voir les détails
qasper
Meilleur modèle: Longformer Encoder Decoder (base)
Métriques
Voir les détails
quac
Meilleur modèle: FlowQA (single model)
Métriques
Voir les détails
quora-question-pairs
Meilleur modèle: DeBERTa (large)
Métriques
Voir les détails
recipeqa
Meilleur modèle: multimodal+LXMERT+ConstrainedMaxPooling
Métriques
Voir les détails
reclor
Meilleur modèle: XLNet-large
Métriques
Voir les détails
semevalcqa
Meilleur modèle: HyperQA
Métriques
Voir les détails
social-iqa
Meilleur modèle: LLaMA 65B (zero-shot)
Métriques
Voir les détails
sqa3d
Meilleur modèle: CREMA
Métriques
Voir les détails
squad1-1
Meilleur modèle: LUKE
Métriques
Voir les détails
squad1-1-dev
Meilleur modèle: T5-11B
Métriques
Voir les détails
squad2-0-dev
Meilleur modèle: XLNet (single model)
Métriques
Voir les détails
stepgame
Meilleur modèle: TP-MANN
Métriques
Voir les détails
story-cloze
Meilleur modèle: Neo-6B (QA + WS)
Métriques
Voir les détails
storycloze
Meilleur modèle: BLOOMZ
Métriques
Voir les détails
strategyqa
Meilleur modèle: PaLM 2 (few-shot, CoT, SC)
Métriques
Voir les détails
swag
Meilleur modèle: DeBERTaV3large
Métriques
Voir les détails
tat-qa
Meilleur modèle: TagOp
Métriques
Voir les détails
tempquestions
Meilleur modèle: QAap
Métriques
Voir les détails
torque
Meilleur modèle: ECONET
Métriques
Voir les détails
trecqa
Meilleur modèle: TANDA DeBERTa-V3-Large + ALL
Métriques
Voir les détails
triviaqa
Meilleur modèle: PaLM 2-L (one-shot)
Métriques
Voir les détails
truthfulqa
Meilleur modèle: CoA
Métriques
Voir les détails
tweetqa
Meilleur modèle: ByT5
Métriques
Voir les détails
vnhsge-civic
Meilleur modèle: Bing Chat
Métriques
Voir les détails
webquestions
Meilleur modèle: FiE+PAQ
Métriques
Voir les détails
webquestionssp
Meilleur modèle: ChatGPT
Métriques
Voir les détails
wikihop
Meilleur modèle: BigBird-etc
Métriques
Voir les détails
wikiqa
Meilleur modèle: TANDA-RoBERTa (ASNQ, WikiQA)
Métriques
Voir les détails
wikitablequestions
Meilleur modèle: TabSQLify (col+row)
Métriques
Voir les détails
yahoocqa
Meilleur modèle: sMIM (1024) +
Métriques
Voir les détails
adversarial-qa
Métriques
Voir les détails
agi-eval
Métriques
Voir les détails
ai2-kaggle-dataset
Métriques
Voir les détails
bamboogle
Métriques
Voir les détails
bbh
Métriques
Voir les détails
chegeka
Métriques
Voir les détails
cnn-daily-mail
Métriques
Voir les détails
coco-visual-question-answering-vqa-real-1
Métriques
Voir les détails
convfinqa
Métriques
Voir les détails
cronquestions
Métriques
Voir les détails
danetqa
Métriques
Voir les détails
drop
Métriques
Voir les détails
efficientqa-dev
Métriques
Voir les détails
efficientqa-test
Métriques
Voir les détails
egotaskqa
Métriques
Voir les détails
fever
Métriques
Voir les détails
fiqa-2018-beir
Métriques
Voir les détails
fquad
Métriques
Voir les détails
friendsqa
Métriques
Voir les détails
hellaswag
Métriques
Voir les détails
kilt-eli5
Métriques
Voir les détails
kqa-pro
Métriques
Voir les détails
mapeval-textual
Métriques
Voir les détails
mctest-500
Métriques
Voir les détails
medturkquad-medical-turkish-question
Métriques
Voir les détails
mmlu
Métriques
Voir les détails
molweni
Métriques
Voir les détails
mrqa-2019
Métriques
Voir les détails
ms-marco
Métriques
Voir les détails
muld-hotpotqa
Métriques
Voir les détails
muld-narrativeqa
Métriques
Voir les détails
multiq
Métriques
Voir les détails
multitq
Métriques
Voir les détails
next-qa-open-ended-videoqa
Métriques
Voir les détails
nq-beir
Métriques
Voir les détails
openbookqa
Métriques
Voir les détails
quality
Métriques
Voir les détails
quasart-t
Métriques
Voir les détails
race
Métriques
Voir les détails
reverb
Métriques
Voir les détails
ruopenbookqa
Métriques
Voir les détails
sberquad
Métriques
Voir les détails
scde
Métriques
Voir les détails
schizzosquad
Métriques
Voir les détails
simplequestions
Métriques
Voir les détails
squad
Métriques
Voir les détails
squad-adversarial
Métriques
Voir les détails
squad-v2
Métriques
Voir les détails
squad2-0
Métriques
Voir les détails
squadshifts-amazon
Métriques
Voir les détails
squadshifts-new-wiki
Métriques
Voir les détails
squadshifts-nyt
Métriques
Voir les détails
squadshifts-reddit
Métriques
Voir les détails
tempqa-wd
Métriques
Voir les détails
timequestions
Métriques
Voir les détails
tiq
Métriques
Voir les détails
uniprotqa
Métriques
Voir les détails
vnhsge-biology
Métriques
Voir les détails
vnhsge-chemistry
Métriques
Voir les détails
vnhsge-english
Métriques
Voir les détails
vnhsge-geography
Métriques
Voir les détails
vnhsge-history
Métriques
Voir les détails
vnhsge-literature
Métriques
Voir les détails
vnhsge-mathematics-1
Métriques
Voir les détails
vnhsge-physics
Métriques
Voir les détails
websrc
Métriques
Voir les détails
wikisql
Métriques
Voir les détails