Question Answering
ベンチマークリスト
このタスクに関連するすべてのベンチマーク
jd-product-question-answer
最高モデル: PAAG
評価指標
詳細を表示
aristo-kaggle-allen-ai-8th-grade-questions
最高モデル: Cardal
評価指標
詳細を表示
aviationqa
最高モデル: KGT5
評価指標
詳細を表示
babi
最高モデル: STM
評価指標
詳細を表示
bioasq
最高モデル: BioLinkBERT (large)
評価指標
詳細を表示
blurb
最高モデル: BioLinkBERT (large)
評価指標
詳細を表示
boolq
最高モデル: Gemma-7B
評価指標
詳細を表示
casehold
最高モデル: Custom Legal-BERT
評価指標
詳細を表示
catbabi-lm-mode
最高モデル: Fast Weight Memory
評価指標
詳細を表示
catbabi
最高モデル: Fast Weight Memory
評価指標
詳細を表示
chaii-hindi-and-tamil-question-answering
最高モデル: MuCoT
評価指標
詳細を表示
children-s-book-test
最高モデル: NSE
評価指標
詳細を表示
clicr
最高モデル: Gated-Attention Reader
評価指標
詳細を表示
codah
最高モデル: G-DAUG-Combo + RoBERTa-Large
評価指標
詳細を表示
complex-cronquestions
最高モデル: SubGTR
評価指標
詳細を表示
complexquestions
最高モデル: WebQA
評価指標
詳細を表示
complexwebquestions
最高モデル: TOME-2
評価指標
詳細を表示
conditionalqa
最高モデル: FiD
評価指標
詳細を表示
copa
最高モデル: PaLM 540B (finetuned)
評価指標
詳細を表示
coqa
最高モデル: GPT-3 175B (few-shot, k=32)
評価指標
詳細を表示
drop-test
最高モデル: QDGAT (ensemble)
評価指標
詳細を表示
duorc
最高モデル: Vector Database (ChromaDB)
評価指標
詳細を表示
fairytaleqa
最高モデル: BART fine-tuned on FairytaleQA
評価指標
詳細を表示
finqa
最高モデル: ELASTIC (RoBERTa-large)
評価指標
詳細を表示
geoquestions1089
最高モデル: GeoQA2
評価指標
詳細を表示
graphquestions
最高モデル: ChatGPT
評価指標
詳細を表示
hotpotqa
最高モデル: Beam Retrieval
評価指標
詳細を表示
hotpotqa-beir
最高モデル: BM25+CE
評価指標
詳細を表示
hybridqa
最高モデル: MAFiD
評価指標
詳細を表示
jaquad
最高モデル: BERT-Japanese
評価指標
詳細を表示
mapeval-api
最高モデル: Claude-3.5-Sonnet (ReAct)
評価指標
詳細を表示
mathematics
最高モデル: TP-Transformer
評価指標
詳細を表示
mctest-160
最高モデル: syntax, frame, coreference, and word embedding features
評価指標
詳細を表示
medmcqa-dev
最高モデル: MedMobile (3.8B)
評価指標
詳細を表示
medqa-usmle
最高モデル: DRAGON + BioLinkBERT
評価指標
詳細を表示
metaqa
最高モデル: T5-small+prolog
評価指標
詳細を表示
mrqa-out-of-domain
最高モデル: RGX
評価指標
詳細を表示
multirc
最高モデル: PaLM 540B (finetuned)
評価指標
詳細を表示
multispanqa
最高モデル: RoBERTa-large Tagger + LIQUID (Ensemble)
評価指標
詳細を表示
narrativeqa
最高モデル: Masque (NarrativeQA + MS MARCO)
評価指標
詳細を表示
natural-questions
最高モデル: Atlas (full, Wiki-dec-2018 index)
評価指標
詳細を表示
natural-questions-long
最高モデル: DensePhrases
評価指標
詳細を表示
naturalqa
最高モデル: DPR
評価指標
詳細を表示
newsqa
最高モデル: OpenAI/o3-mini-2025-01-31-high
評価指標
詳細を表示
obqa
最高モデル: FLAN 137B (zero-shot)
評価指標
詳細を表示
ott-qa
最高モデル: Fusion Retriever+ETC
評価指標
詳細を表示
peerqa
最高モデル: GPT-4o-2024-08-06-128k
評価指標
詳細を表示
piqa
最高モデル: LLaMA 65B (0-shot)
評価指標
詳細を表示
popqa
最高モデル: SelfRAG-7b
評価指標
詳細を表示
pubchemqa
最高モデル: BioMedGPT-10B
評価指標
詳細を表示
pubmedqa
最高モデル: BioGPT-Large(1.5B)
評価指標
詳細を表示
qasent
最高モデル: Attentive LSTM
評価指標
詳細を表示
qasper
最高モデル: Longformer Encoder Decoder (base)
評価指標
詳細を表示
quac
最高モデル: FlowQA (single model)
評価指標
詳細を表示
quora-question-pairs
最高モデル: DeBERTa (large)
評価指標
詳細を表示
recipeqa
最高モデル: multimodal+LXMERT+ConstrainedMaxPooling
評価指標
詳細を表示
reclor
最高モデル: XLNet-large
評価指標
詳細を表示
semevalcqa
最高モデル: HyperQA
評価指標
詳細を表示
social-iqa
最高モデル: LLaMA 65B (zero-shot)
評価指標
詳細を表示
sqa3d
最高モデル: CREMA
評価指標
詳細を表示
squad1-1
最高モデル: LUKE
評価指標
詳細を表示
squad1-1-dev
最高モデル: T5-11B
評価指標
詳細を表示
squad2-0-dev
最高モデル: XLNet (single model)
評価指標
詳細を表示
stepgame
最高モデル: TP-MANN
評価指標
詳細を表示
story-cloze
最高モデル: Neo-6B (QA + WS)
評価指標
詳細を表示
storycloze
最高モデル: BLOOMZ
評価指標
詳細を表示
strategyqa
最高モデル: PaLM 2 (few-shot, CoT, SC)
評価指標
詳細を表示
swag
最高モデル: DeBERTaV3large
評価指標
詳細を表示
tat-qa
最高モデル: TagOp
評価指標
詳細を表示
tempquestions
最高モデル: QAap
評価指標
詳細を表示
torque
最高モデル: ECONET
評価指標
詳細を表示
trecqa
最高モデル: TANDA DeBERTa-V3-Large + ALL
評価指標
詳細を表示
triviaqa
最高モデル: PaLM 2-L (one-shot)
評価指標
詳細を表示
truthfulqa
最高モデル: CoA
評価指標
詳細を表示
tweetqa
最高モデル: ByT5
評価指標
詳細を表示
vnhsge-civic
最高モデル: Bing Chat
評価指標
詳細を表示
webquestions
最高モデル: FiE+PAQ
評価指標
詳細を表示
webquestionssp
最高モデル: ChatGPT
評価指標
詳細を表示
wikihop
最高モデル: BigBird-etc
評価指標
詳細を表示
wikiqa
最高モデル: TANDA-RoBERTa (ASNQ, WikiQA)
評価指標
詳細を表示
wikitablequestions
最高モデル: TabSQLify (col+row)
評価指標
詳細を表示
yahoocqa
最高モデル: sMIM (1024) +
評価指標
詳細を表示
adversarial-qa
評価指標
詳細を表示
agi-eval
評価指標
詳細を表示
ai2-kaggle-dataset
評価指標
詳細を表示
bamboogle
評価指標
詳細を表示
bbh
評価指標
詳細を表示
chegeka
評価指標
詳細を表示
cnn-daily-mail
評価指標
詳細を表示
coco-visual-question-answering-vqa-real-1
評価指標
詳細を表示
convfinqa
評価指標
詳細を表示
cronquestions
評価指標
詳細を表示
danetqa
評価指標
詳細を表示
drop
評価指標
詳細を表示
efficientqa-dev
評価指標
詳細を表示
efficientqa-test
評価指標
詳細を表示
egotaskqa
評価指標
詳細を表示
fever
評価指標
詳細を表示
fiqa-2018-beir
評価指標
詳細を表示
fquad
評価指標
詳細を表示
friendsqa
評価指標
詳細を表示
hellaswag
評価指標
詳細を表示
kilt-eli5
評価指標
詳細を表示
kqa-pro
評価指標
詳細を表示
mapeval-textual
評価指標
詳細を表示
mctest-500
評価指標
詳細を表示
medturkquad-medical-turkish-question
評価指標
詳細を表示
mmlu
評価指標
詳細を表示
molweni
評価指標
詳細を表示
mrqa-2019
評価指標
詳細を表示
ms-marco
評価指標
詳細を表示
muld-hotpotqa
評価指標
詳細を表示
muld-narrativeqa
評価指標
詳細を表示
multiq
評価指標
詳細を表示
multitq
評価指標
詳細を表示
next-qa-open-ended-videoqa
評価指標
詳細を表示
nq-beir
評価指標
詳細を表示
openbookqa
評価指標
詳細を表示
quality
評価指標
詳細を表示
quasart-t
評価指標
詳細を表示
race
評価指標
詳細を表示
reverb
評価指標
詳細を表示
ruopenbookqa
評価指標
詳細を表示
sberquad
評価指標
詳細を表示
scde
評価指標
詳細を表示
schizzosquad
評価指標
詳細を表示
simplequestions
評価指標
詳細を表示
squad
評価指標
詳細を表示
squad-adversarial
評価指標
詳細を表示
squad-v2
評価指標
詳細を表示
squad2-0
評価指標
詳細を表示
squadshifts-amazon
評価指標
詳細を表示
squadshifts-new-wiki
評価指標
詳細を表示
squadshifts-nyt
評価指標
詳細を表示
squadshifts-reddit
評価指標
詳細を表示
tempqa-wd
評価指標
詳細を表示
timequestions
評価指標
詳細を表示
tiq
評価指標
詳細を表示
uniprotqa
評価指標
詳細を表示
vnhsge-biology
評価指標
詳細を表示
vnhsge-chemistry
評価指標
詳細を表示
vnhsge-english
評価指標
詳細を表示
vnhsge-geography
評価指標
詳細を表示
vnhsge-history
評価指標
詳細を表示
vnhsge-literature
評価指標
詳細を表示
vnhsge-mathematics-1
評価指標
詳細を表示
vnhsge-physics
評価指標
詳細を表示
websrc
評価指標
詳細を表示
wikisql
評価指標
詳細を表示