HyperAI超神経

Question Answering

ベンチマークリスト

このタスクに関連するすべてのベンチマーク

jd-product-question-answer
最高モデル: PAAG

評価指標

詳細を表示
aristo-kaggle-allen-ai-8th-grade-questions
最高モデル: Cardal

評価指標

詳細を表示
aviationqa
最高モデル: KGT5

評価指標

詳細を表示
babi
最高モデル: STM

評価指標

詳細を表示
bioasq
最高モデル: BioLinkBERT (large)

評価指標

詳細を表示
blurb
最高モデル: BioLinkBERT (large)

評価指標

詳細を表示
boolq
最高モデル: Gemma-7B

評価指標

詳細を表示
casehold
最高モデル: Custom Legal-BERT

評価指標

詳細を表示
catbabi-lm-mode
最高モデル: Fast Weight Memory

評価指標

詳細を表示
catbabi
最高モデル: Fast Weight Memory

評価指標

詳細を表示
chaii-hindi-and-tamil-question-answering
最高モデル: MuCoT

評価指標

詳細を表示
children-s-book-test
最高モデル: NSE

評価指標

詳細を表示
clicr
最高モデル: Gated-Attention Reader

評価指標

詳細を表示
codah
最高モデル: G-DAUG-Combo + RoBERTa-Large

評価指標

詳細を表示
complex-cronquestions
最高モデル: SubGTR

評価指標

詳細を表示
complexquestions
最高モデル: WebQA

評価指標

詳細を表示
complexwebquestions
最高モデル: TOME-2

評価指標

詳細を表示
conditionalqa
最高モデル: FiD

評価指標

詳細を表示
copa
最高モデル: PaLM 540B (finetuned)

評価指標

詳細を表示
coqa
最高モデル: GPT-3 175B (few-shot, k=32)

評価指標

詳細を表示
drop-test
最高モデル: QDGAT (ensemble)

評価指標

詳細を表示
duorc
最高モデル: Vector Database (ChromaDB)

評価指標

詳細を表示
fairytaleqa
最高モデル: BART fine-tuned on FairytaleQA

評価指標

詳細を表示
finqa
最高モデル: ELASTIC (RoBERTa-large)

評価指標

詳細を表示
geoquestions1089
最高モデル: GeoQA2

評価指標

詳細を表示
graphquestions
最高モデル: ChatGPT

評価指標

詳細を表示
hotpotqa
最高モデル: Beam Retrieval

評価指標

詳細を表示
hotpotqa-beir
最高モデル: BM25+CE

評価指標

詳細を表示
hybridqa
最高モデル: MAFiD

評価指標

詳細を表示
jaquad
最高モデル: BERT-Japanese

評価指標

詳細を表示
mapeval-api
最高モデル: Claude-3.5-Sonnet (ReAct)

評価指標

詳細を表示
mathematics
最高モデル: TP-Transformer

評価指標

詳細を表示
mctest-160
最高モデル: syntax, frame, coreference, and word embedding features

評価指標

詳細を表示
medmcqa-dev
最高モデル: MedMobile (3.8B)

評価指標

詳細を表示
medqa-usmle
最高モデル: DRAGON + BioLinkBERT

評価指標

詳細を表示
metaqa
最高モデル: T5-small+prolog

評価指標

詳細を表示
mrqa-out-of-domain
最高モデル: RGX

評価指標

詳細を表示
multirc
最高モデル: PaLM 540B (finetuned)

評価指標

詳細を表示
multispanqa
最高モデル: RoBERTa-large Tagger + LIQUID (Ensemble)

評価指標

詳細を表示
narrativeqa
最高モデル: Masque (NarrativeQA + MS MARCO)

評価指標

詳細を表示
natural-questions
最高モデル: Atlas (full, Wiki-dec-2018 index)

評価指標

詳細を表示
natural-questions-long
最高モデル: DensePhrases

評価指標

詳細を表示
naturalqa
最高モデル: DPR

評価指標

詳細を表示
newsqa
最高モデル: OpenAI/o3-mini-2025-01-31-high

評価指標

詳細を表示
obqa
最高モデル: FLAN 137B (zero-shot)

評価指標

詳細を表示
ott-qa
最高モデル: Fusion Retriever+ETC

評価指標

詳細を表示
peerqa
最高モデル: GPT-4o-2024-08-06-128k

評価指標

詳細を表示
piqa
最高モデル: LLaMA 65B (0-shot)

評価指標

詳細を表示
popqa
最高モデル: SelfRAG-7b

評価指標

詳細を表示
pubchemqa
最高モデル: BioMedGPT-10B

評価指標

詳細を表示
pubmedqa
最高モデル: BioGPT-Large(1.5B)

評価指標

詳細を表示
qasent
最高モデル: Attentive LSTM

評価指標

詳細を表示
qasper
最高モデル: Longformer Encoder Decoder (base)

評価指標

詳細を表示
quac
最高モデル: FlowQA (single model)

評価指標

詳細を表示
quora-question-pairs
最高モデル: DeBERTa (large)

評価指標

詳細を表示
recipeqa
最高モデル: multimodal+LXMERT+ConstrainedMaxPooling

評価指標

詳細を表示
reclor
最高モデル: XLNet-large

評価指標

詳細を表示
semevalcqa
最高モデル: HyperQA

評価指標

詳細を表示
social-iqa
最高モデル: LLaMA 65B (zero-shot)

評価指標

詳細を表示
sqa3d
最高モデル: CREMA

評価指標

詳細を表示
squad1-1
最高モデル: LUKE

評価指標

詳細を表示
squad1-1-dev
最高モデル: T5-11B

評価指標

詳細を表示
squad2-0-dev
最高モデル: XLNet (single model)

評価指標

詳細を表示
stepgame
最高モデル: TP-MANN

評価指標

詳細を表示
story-cloze
最高モデル: Neo-6B (QA + WS)

評価指標

詳細を表示
storycloze
最高モデル: BLOOMZ

評価指標

詳細を表示
strategyqa
最高モデル: PaLM 2 (few-shot, CoT, SC)

評価指標

詳細を表示
swag
最高モデル: DeBERTaV3large

評価指標

詳細を表示
tat-qa
最高モデル: TagOp

評価指標

詳細を表示
tempquestions
最高モデル: QAap

評価指標

詳細を表示
torque
最高モデル: ECONET

評価指標

詳細を表示
trecqa
最高モデル: TANDA DeBERTa-V3-Large + ALL

評価指標

詳細を表示
triviaqa
最高モデル: PaLM 2-L (one-shot)

評価指標

詳細を表示
truthfulqa
最高モデル: CoA

評価指標

詳細を表示
tweetqa
最高モデル: ByT5

評価指標

詳細を表示
vnhsge-civic
最高モデル: Bing Chat

評価指標

詳細を表示
webquestions
最高モデル: FiE+PAQ

評価指標

詳細を表示
webquestionssp
最高モデル: ChatGPT

評価指標

詳細を表示
wikihop
最高モデル: BigBird-etc

評価指標

詳細を表示
wikiqa
最高モデル: TANDA-RoBERTa (ASNQ, WikiQA)

評価指標

詳細を表示
wikitablequestions
最高モデル: TabSQLify (col+row)

評価指標

詳細を表示
yahoocqa
最高モデル: sMIM (1024) +

評価指標

詳細を表示
adversarial-qa

評価指標

詳細を表示
agi-eval

評価指標

詳細を表示
ai2-kaggle-dataset

評価指標

詳細を表示
bamboogle

評価指標

詳細を表示
bbh

評価指標

詳細を表示
chegeka

評価指標

詳細を表示
cnn-daily-mail

評価指標

詳細を表示
coco-visual-question-answering-vqa-real-1

評価指標

詳細を表示
convfinqa

評価指標

詳細を表示
cronquestions

評価指標

詳細を表示
danetqa

評価指標

詳細を表示
drop

評価指標

詳細を表示
efficientqa-dev

評価指標

詳細を表示
efficientqa-test

評価指標

詳細を表示
egotaskqa

評価指標

詳細を表示
fever

評価指標

詳細を表示
fiqa-2018-beir

評価指標

詳細を表示
fquad

評価指標

詳細を表示
friendsqa

評価指標

詳細を表示
hellaswag

評価指標

詳細を表示
kilt-eli5

評価指標

詳細を表示
kqa-pro

評価指標

詳細を表示
mapeval-textual

評価指標

詳細を表示
mctest-500

評価指標

詳細を表示
medturkquad-medical-turkish-question

評価指標

詳細を表示
mmlu

評価指標

詳細を表示
molweni

評価指標

詳細を表示
mrqa-2019

評価指標

詳細を表示
ms-marco

評価指標

詳細を表示
muld-hotpotqa

評価指標

詳細を表示
muld-narrativeqa

評価指標

詳細を表示
multiq

評価指標

詳細を表示
multitq

評価指標

詳細を表示
next-qa-open-ended-videoqa

評価指標

詳細を表示
nq-beir

評価指標

詳細を表示
openbookqa

評価指標

詳細を表示
quality

評価指標

詳細を表示
quasart-t

評価指標

詳細を表示
race

評価指標

詳細を表示
reverb

評価指標

詳細を表示
ruopenbookqa

評価指標

詳細を表示
sberquad

評価指標

詳細を表示
scde

評価指標

詳細を表示
schizzosquad

評価指標

詳細を表示
simplequestions

評価指標

詳細を表示
squad

評価指標

詳細を表示
squad-adversarial

評価指標

詳細を表示
squad-v2

評価指標

詳細を表示
squad2-0

評価指標

詳細を表示
squadshifts-amazon

評価指標

詳細を表示
squadshifts-new-wiki

評価指標

詳細を表示
squadshifts-nyt

評価指標

詳細を表示
squadshifts-reddit

評価指標

詳細を表示
tempqa-wd

評価指標

詳細を表示
timequestions

評価指標

詳細を表示
tiq

評価指標

詳細を表示
uniprotqa

評価指標

詳細を表示
vnhsge-biology

評価指標

詳細を表示
vnhsge-chemistry

評価指標

詳細を表示
vnhsge-english

評価指標

詳細を表示
vnhsge-geography

評価指標

詳細を表示
vnhsge-history

評価指標

詳細を表示
vnhsge-literature

評価指標

詳細を表示
vnhsge-mathematics-1

評価指標

詳細を表示
vnhsge-physics

評価指標

詳細を表示
websrc

評価指標

詳細を表示
wikisql

評価指標

詳細を表示