HyperAI超神经

Question Answering

基准测试列表

该任务相关的所有基准测试列表

jd-product-question-answer
最佳模型: PAAG

评估指标

查看详情
aristo-kaggle-allen-ai-8th-grade-questions
最佳模型: Cardal

评估指标

查看详情
aviationqa
最佳模型: KGT5

评估指标

查看详情
babi
最佳模型: STM

评估指标

查看详情
bioasq
最佳模型: BioLinkBERT (large)

评估指标

查看详情
blurb
最佳模型: BioLinkBERT (large)

评估指标

查看详情
boolq
最佳模型: Gemma-7B

评估指标

查看详情
casehold
最佳模型: Custom Legal-BERT

评估指标

查看详情
catbabi-lm-mode
最佳模型: Fast Weight Memory

评估指标

查看详情
catbabi
最佳模型: Fast Weight Memory

评估指标

查看详情
chaii-hindi-and-tamil-question-answering
最佳模型: MuCoT

评估指标

查看详情
children-s-book-test
最佳模型: NSE

评估指标

查看详情
clicr
最佳模型: Gated-Attention Reader

评估指标

查看详情
codah
最佳模型: G-DAUG-Combo + RoBERTa-Large

评估指标

查看详情
complex-cronquestions
最佳模型: SubGTR

评估指标

查看详情
complexquestions
最佳模型: WebQA

评估指标

查看详情
complexwebquestions
最佳模型: TOME-2

评估指标

查看详情
conditionalqa
最佳模型: FiD

评估指标

查看详情
copa
最佳模型: PaLM 540B (finetuned)

评估指标

查看详情
coqa
最佳模型: GPT-3 175B (few-shot, k=32)

评估指标

查看详情
drop-test
最佳模型: QDGAT (ensemble)

评估指标

查看详情
duorc
最佳模型: Vector Database (ChromaDB)

评估指标

查看详情
fairytaleqa
最佳模型: BART fine-tuned on FairytaleQA

评估指标

查看详情
finqa
最佳模型: ELASTIC (RoBERTa-large)

评估指标

查看详情
geoquestions1089
最佳模型: GeoQA2

评估指标

查看详情
graphquestions
最佳模型: ChatGPT

评估指标

查看详情
hotpotqa
最佳模型: Beam Retrieval

评估指标

查看详情
hotpotqa-beir
最佳模型: BM25+CE

评估指标

查看详情
hybridqa
最佳模型: MAFiD

评估指标

查看详情
jaquad
最佳模型: BERT-Japanese

评估指标

查看详情
mapeval-api
最佳模型: Claude-3.5-Sonnet (ReAct)

评估指标

查看详情
mathematics
最佳模型: TP-Transformer

评估指标

查看详情
mctest-160
最佳模型: syntax, frame, coreference, and word embedding features

评估指标

查看详情
medmcqa-dev
最佳模型: MedMobile (3.8B)

评估指标

查看详情
medqa-usmle
最佳模型: DRAGON + BioLinkBERT

评估指标

查看详情
metaqa
最佳模型: T5-small+prolog

评估指标

查看详情
mrqa-out-of-domain
最佳模型: RGX

评估指标

查看详情
multirc
最佳模型: PaLM 540B (finetuned)

评估指标

查看详情
multispanqa
最佳模型: RoBERTa-large Tagger + LIQUID (Ensemble)

评估指标

查看详情
narrativeqa
最佳模型: Masque (NarrativeQA + MS MARCO)

评估指标

查看详情
natural-questions
最佳模型: Atlas (full, Wiki-dec-2018 index)

评估指标

查看详情
natural-questions-long
最佳模型: DensePhrases

评估指标

查看详情
naturalqa
最佳模型: DPR

评估指标

查看详情
newsqa
最佳模型: OpenAI/o3-mini-2025-01-31-high

评估指标

查看详情
obqa
最佳模型: FLAN 137B (zero-shot)

评估指标

查看详情
ott-qa
最佳模型: Fusion Retriever+ETC

评估指标

查看详情
peerqa
最佳模型: GPT-4o-2024-08-06-128k

评估指标

查看详情
piqa
最佳模型: LLaMA 65B (0-shot)

评估指标

查看详情
popqa
最佳模型: SelfRAG-7b

评估指标

查看详情
pubchemqa
最佳模型: BioMedGPT-10B

评估指标

查看详情
pubmedqa
最佳模型: BioGPT-Large(1.5B)

评估指标

查看详情
qasent
最佳模型: Attentive LSTM

评估指标

查看详情
qasper
最佳模型: Longformer Encoder Decoder (base)

评估指标

查看详情
quac
最佳模型: FlowQA (single model)

评估指标

查看详情
quora-question-pairs
最佳模型: DeBERTa (large)

评估指标

查看详情
recipeqa
最佳模型: multimodal+LXMERT+ConstrainedMaxPooling

评估指标

查看详情
reclor
最佳模型: XLNet-large

评估指标

查看详情
semevalcqa
最佳模型: HyperQA

评估指标

查看详情
social-iqa
最佳模型: LLaMA 65B (zero-shot)

评估指标

查看详情
sqa3d
最佳模型: CREMA

评估指标

查看详情
squad1-1
最佳模型: LUKE

评估指标

查看详情
squad1-1-dev
最佳模型: T5-11B

评估指标

查看详情
squad2-0-dev
最佳模型: XLNet (single model)

评估指标

查看详情
stepgame
最佳模型: TP-MANN

评估指标

查看详情
story-cloze
最佳模型: Neo-6B (QA + WS)

评估指标

查看详情
storycloze
最佳模型: BLOOMZ

评估指标

查看详情
strategyqa
最佳模型: PaLM 2 (few-shot, CoT, SC)

评估指标

查看详情
swag
最佳模型: DeBERTaV3large

评估指标

查看详情
tat-qa
最佳模型: TagOp

评估指标

查看详情
tempquestions
最佳模型: QAap

评估指标

查看详情
torque
最佳模型: ECONET

评估指标

查看详情
trecqa
最佳模型: TANDA DeBERTa-V3-Large + ALL

评估指标

查看详情
triviaqa
最佳模型: PaLM 2-L (one-shot)

评估指标

查看详情
truthfulqa
最佳模型: CoA

评估指标

查看详情
tweetqa
最佳模型: ByT5

评估指标

查看详情
vnhsge-civic
最佳模型: Bing Chat

评估指标

查看详情
webquestions
最佳模型: FiE+PAQ

评估指标

查看详情
webquestionssp
最佳模型: ChatGPT

评估指标

查看详情
wikihop
最佳模型: BigBird-etc

评估指标

查看详情
wikiqa
最佳模型: TANDA-RoBERTa (ASNQ, WikiQA)

评估指标

查看详情
wikitablequestions
最佳模型: TabSQLify (col+row)

评估指标

查看详情
yahoocqa
最佳模型: sMIM (1024) +

评估指标

查看详情
adversarial-qa

评估指标

查看详情
agi-eval

评估指标

查看详情
ai2-kaggle-dataset

评估指标

查看详情
bamboogle

评估指标

查看详情
bbh

评估指标

查看详情
chegeka

评估指标

查看详情
cnn-daily-mail

评估指标

查看详情
coco-visual-question-answering-vqa-real-1

评估指标

查看详情
convfinqa

评估指标

查看详情
cronquestions

评估指标

查看详情
danetqa

评估指标

查看详情
drop

评估指标

查看详情
efficientqa-dev

评估指标

查看详情
efficientqa-test

评估指标

查看详情
egotaskqa

评估指标

查看详情
fever

评估指标

查看详情
fiqa-2018-beir

评估指标

查看详情
fquad

评估指标

查看详情
friendsqa

评估指标

查看详情
hellaswag

评估指标

查看详情
kilt-eli5

评估指标

查看详情
kqa-pro

评估指标

查看详情
mapeval-textual

评估指标

查看详情
mctest-500

评估指标

查看详情
medturkquad-medical-turkish-question

评估指标

查看详情
mmlu

评估指标

查看详情
molweni

评估指标

查看详情
mrqa-2019

评估指标

查看详情
ms-marco

评估指标

查看详情
muld-hotpotqa

评估指标

查看详情
muld-narrativeqa

评估指标

查看详情
multiq

评估指标

查看详情
multitq

评估指标

查看详情
next-qa-open-ended-videoqa

评估指标

查看详情
nq-beir

评估指标

查看详情
openbookqa

评估指标

查看详情
quality

评估指标

查看详情
quasart-t

评估指标

查看详情
race

评估指标

查看详情
reverb

评估指标

查看详情
ruopenbookqa

评估指标

查看详情
sberquad

评估指标

查看详情
scde

评估指标

查看详情
schizzosquad

评估指标

查看详情
simplequestions

评估指标

查看详情
squad

评估指标

查看详情
squad-adversarial

评估指标

查看详情
squad-v2

评估指标

查看详情
squad2-0

评估指标

查看详情
squadshifts-amazon

评估指标

查看详情
squadshifts-new-wiki

评估指标

查看详情
squadshifts-nyt

评估指标

查看详情
squadshifts-reddit

评估指标

查看详情
tempqa-wd

评估指标

查看详情
timequestions

评估指标

查看详情
tiq

评估指标

查看详情
uniprotqa

评估指标

查看详情
vnhsge-biology

评估指标

查看详情
vnhsge-chemistry

评估指标

查看详情
vnhsge-english

评估指标

查看详情
vnhsge-geography

评估指标

查看详情
vnhsge-history

评估指标

查看详情
vnhsge-literature

评估指标

查看详情
vnhsge-mathematics-1

评估指标

查看详情
vnhsge-physics

评估指标

查看详情
websrc

评估指标

查看详情
wikisql

评估指标

查看详情