Question Answering
벤치마크 목록
해당 작업에 관련된 모든 벤치마크 목록
jd-product-question-answer
최고 모델: PAAG
평가 지표
세부 정보 보기
aristo-kaggle-allen-ai-8th-grade-questions
최고 모델: Cardal
평가 지표
세부 정보 보기
aviationqa
최고 모델: KGT5
평가 지표
세부 정보 보기
babi
최고 모델: STM
평가 지표
세부 정보 보기
bioasq
최고 모델: BioLinkBERT (large)
평가 지표
세부 정보 보기
blurb
최고 모델: BioLinkBERT (large)
평가 지표
세부 정보 보기
boolq
최고 모델: Gemma-7B
평가 지표
세부 정보 보기
casehold
최고 모델: Custom Legal-BERT
평가 지표
세부 정보 보기
catbabi-lm-mode
최고 모델: Fast Weight Memory
평가 지표
세부 정보 보기
catbabi
최고 모델: Fast Weight Memory
평가 지표
세부 정보 보기
chaii-hindi-and-tamil-question-answering
최고 모델: MuCoT
평가 지표
세부 정보 보기
children-s-book-test
최고 모델: NSE
평가 지표
세부 정보 보기
clicr
최고 모델: Gated-Attention Reader
평가 지표
세부 정보 보기
codah
최고 모델: G-DAUG-Combo + RoBERTa-Large
평가 지표
세부 정보 보기
complex-cronquestions
최고 모델: SubGTR
평가 지표
세부 정보 보기
complexquestions
최고 모델: WebQA
평가 지표
세부 정보 보기
complexwebquestions
최고 모델: TOME-2
평가 지표
세부 정보 보기
conditionalqa
최고 모델: FiD
평가 지표
세부 정보 보기
copa
최고 모델: PaLM 540B (finetuned)
평가 지표
세부 정보 보기
coqa
최고 모델: GPT-3 175B (few-shot, k=32)
평가 지표
세부 정보 보기
drop-test
최고 모델: QDGAT (ensemble)
평가 지표
세부 정보 보기
duorc
최고 모델: Vector Database (ChromaDB)
평가 지표
세부 정보 보기
fairytaleqa
최고 모델: BART fine-tuned on FairytaleQA
평가 지표
세부 정보 보기
finqa
최고 모델: ELASTIC (RoBERTa-large)
평가 지표
세부 정보 보기
geoquestions1089
최고 모델: GeoQA2
평가 지표
세부 정보 보기
graphquestions
최고 모델: ChatGPT
평가 지표
세부 정보 보기
hotpotqa
최고 모델: Beam Retrieval
평가 지표
세부 정보 보기
hotpotqa-beir
최고 모델: BM25+CE
평가 지표
세부 정보 보기
hybridqa
최고 모델: MAFiD
평가 지표
세부 정보 보기
jaquad
최고 모델: BERT-Japanese
평가 지표
세부 정보 보기
mapeval-api
최고 모델: Claude-3.5-Sonnet (ReAct)
평가 지표
세부 정보 보기
mathematics
최고 모델: TP-Transformer
평가 지표
세부 정보 보기
mctest-160
최고 모델: syntax, frame, coreference, and word embedding features
평가 지표
세부 정보 보기
medmcqa-dev
최고 모델: MedMobile (3.8B)
평가 지표
세부 정보 보기
medqa-usmle
최고 모델: DRAGON + BioLinkBERT
평가 지표
세부 정보 보기
metaqa
최고 모델: T5-small+prolog
평가 지표
세부 정보 보기
mrqa-out-of-domain
최고 모델: RGX
평가 지표
세부 정보 보기
multirc
최고 모델: PaLM 540B (finetuned)
평가 지표
세부 정보 보기
multispanqa
최고 모델: RoBERTa-large Tagger + LIQUID (Ensemble)
평가 지표
세부 정보 보기
narrativeqa
최고 모델: Masque (NarrativeQA + MS MARCO)
평가 지표
세부 정보 보기
natural-questions
최고 모델: Atlas (full, Wiki-dec-2018 index)
평가 지표
세부 정보 보기
natural-questions-long
최고 모델: DensePhrases
평가 지표
세부 정보 보기
naturalqa
최고 모델: DPR
평가 지표
세부 정보 보기
newsqa
최고 모델: OpenAI/o3-mini-2025-01-31-high
평가 지표
세부 정보 보기
obqa
최고 모델: FLAN 137B (zero-shot)
평가 지표
세부 정보 보기
ott-qa
최고 모델: Fusion Retriever+ETC
평가 지표
세부 정보 보기
peerqa
최고 모델: GPT-4o-2024-08-06-128k
평가 지표
세부 정보 보기
piqa
최고 모델: LLaMA 65B (0-shot)
평가 지표
세부 정보 보기
popqa
최고 모델: SelfRAG-7b
평가 지표
세부 정보 보기
pubchemqa
최고 모델: BioMedGPT-10B
평가 지표
세부 정보 보기
pubmedqa
최고 모델: BioGPT-Large(1.5B)
평가 지표
세부 정보 보기
qasent
최고 모델: Attentive LSTM
평가 지표
세부 정보 보기
qasper
최고 모델: Longformer Encoder Decoder (base)
평가 지표
세부 정보 보기
quac
최고 모델: FlowQA (single model)
평가 지표
세부 정보 보기
quora-question-pairs
최고 모델: DeBERTa (large)
평가 지표
세부 정보 보기
recipeqa
최고 모델: multimodal+LXMERT+ConstrainedMaxPooling
평가 지표
세부 정보 보기
reclor
최고 모델: XLNet-large
평가 지표
세부 정보 보기
semevalcqa
최고 모델: HyperQA
평가 지표
세부 정보 보기
social-iqa
최고 모델: LLaMA 65B (zero-shot)
평가 지표
세부 정보 보기
sqa3d
최고 모델: CREMA
평가 지표
세부 정보 보기
squad1-1
최고 모델: LUKE
평가 지표
세부 정보 보기
squad1-1-dev
최고 모델: T5-11B
평가 지표
세부 정보 보기
squad2-0-dev
최고 모델: XLNet (single model)
평가 지표
세부 정보 보기
stepgame
최고 모델: TP-MANN
평가 지표
세부 정보 보기
story-cloze
최고 모델: Neo-6B (QA + WS)
평가 지표
세부 정보 보기
storycloze
최고 모델: BLOOMZ
평가 지표
세부 정보 보기
strategyqa
최고 모델: PaLM 2 (few-shot, CoT, SC)
평가 지표
세부 정보 보기
swag
최고 모델: DeBERTaV3large
평가 지표
세부 정보 보기
tat-qa
최고 모델: TagOp
평가 지표
세부 정보 보기
tempquestions
최고 모델: QAap
평가 지표
세부 정보 보기
torque
최고 모델: ECONET
평가 지표
세부 정보 보기
trecqa
최고 모델: TANDA DeBERTa-V3-Large + ALL
평가 지표
세부 정보 보기
triviaqa
최고 모델: PaLM 2-L (one-shot)
평가 지표
세부 정보 보기
truthfulqa
최고 모델: CoA
평가 지표
세부 정보 보기
tweetqa
최고 모델: ByT5
평가 지표
세부 정보 보기
vnhsge-civic
최고 모델: Bing Chat
평가 지표
세부 정보 보기
webquestions
최고 모델: FiE+PAQ
평가 지표
세부 정보 보기
webquestionssp
최고 모델: ChatGPT
평가 지표
세부 정보 보기
wikihop
최고 모델: BigBird-etc
평가 지표
세부 정보 보기
wikiqa
최고 모델: TANDA-RoBERTa (ASNQ, WikiQA)
평가 지표
세부 정보 보기
wikitablequestions
최고 모델: TabSQLify (col+row)
평가 지표
세부 정보 보기
yahoocqa
최고 모델: sMIM (1024) +
평가 지표
세부 정보 보기
adversarial-qa
평가 지표
세부 정보 보기
agi-eval
평가 지표
세부 정보 보기
ai2-kaggle-dataset
평가 지표
세부 정보 보기
bamboogle
평가 지표
세부 정보 보기
bbh
평가 지표
세부 정보 보기
chegeka
평가 지표
세부 정보 보기
cnn-daily-mail
평가 지표
세부 정보 보기
coco-visual-question-answering-vqa-real-1
평가 지표
세부 정보 보기
convfinqa
평가 지표
세부 정보 보기
cronquestions
평가 지표
세부 정보 보기
danetqa
평가 지표
세부 정보 보기
drop
평가 지표
세부 정보 보기
efficientqa-dev
평가 지표
세부 정보 보기
efficientqa-test
평가 지표
세부 정보 보기
egotaskqa
평가 지표
세부 정보 보기
fever
평가 지표
세부 정보 보기
fiqa-2018-beir
평가 지표
세부 정보 보기
fquad
평가 지표
세부 정보 보기
friendsqa
평가 지표
세부 정보 보기
hellaswag
평가 지표
세부 정보 보기
kilt-eli5
평가 지표
세부 정보 보기
kqa-pro
평가 지표
세부 정보 보기
mapeval-textual
평가 지표
세부 정보 보기
mctest-500
평가 지표
세부 정보 보기
medturkquad-medical-turkish-question
평가 지표
세부 정보 보기
mmlu
평가 지표
세부 정보 보기
molweni
평가 지표
세부 정보 보기
mrqa-2019
평가 지표
세부 정보 보기
ms-marco
평가 지표
세부 정보 보기
muld-hotpotqa
평가 지표
세부 정보 보기
muld-narrativeqa
평가 지표
세부 정보 보기
multiq
평가 지표
세부 정보 보기
multitq
평가 지표
세부 정보 보기
next-qa-open-ended-videoqa
평가 지표
세부 정보 보기
nq-beir
평가 지표
세부 정보 보기
openbookqa
평가 지표
세부 정보 보기
quality
평가 지표
세부 정보 보기
quasart-t
평가 지표
세부 정보 보기
race
평가 지표
세부 정보 보기
reverb
평가 지표
세부 정보 보기
ruopenbookqa
평가 지표
세부 정보 보기
sberquad
평가 지표
세부 정보 보기
scde
평가 지표
세부 정보 보기
schizzosquad
평가 지표
세부 정보 보기
simplequestions
평가 지표
세부 정보 보기
squad
평가 지표
세부 정보 보기
squad-adversarial
평가 지표
세부 정보 보기
squad-v2
평가 지표
세부 정보 보기
squad2-0
평가 지표
세부 정보 보기
squadshifts-amazon
평가 지표
세부 정보 보기
squadshifts-new-wiki
평가 지표
세부 정보 보기
squadshifts-nyt
평가 지표
세부 정보 보기
squadshifts-reddit
평가 지표
세부 정보 보기
tempqa-wd
평가 지표
세부 정보 보기
timequestions
평가 지표
세부 정보 보기
tiq
평가 지표
세부 정보 보기
uniprotqa
평가 지표
세부 정보 보기
vnhsge-biology
평가 지표
세부 정보 보기
vnhsge-chemistry
평가 지표
세부 정보 보기
vnhsge-english
평가 지표
세부 정보 보기
vnhsge-geography
평가 지표
세부 정보 보기
vnhsge-history
평가 지표
세부 정보 보기
vnhsge-literature
평가 지표
세부 정보 보기
vnhsge-mathematics-1
평가 지표
세부 정보 보기
vnhsge-physics
평가 지표
세부 정보 보기
websrc
평가 지표
세부 정보 보기
wikisql
평가 지표
세부 정보 보기