HyperAI초신경

Question Answering

벤치마크 목록

해당 작업에 관련된 모든 벤치마크 목록

jd-product-question-answer
최고 모델: PAAG

평가 지표

세부 정보 보기
aristo-kaggle-allen-ai-8th-grade-questions
최고 모델: Cardal

평가 지표

세부 정보 보기
aviationqa
최고 모델: KGT5

평가 지표

세부 정보 보기
babi
최고 모델: STM

평가 지표

세부 정보 보기
bioasq
최고 모델: BioLinkBERT (large)

평가 지표

세부 정보 보기
blurb
최고 모델: BioLinkBERT (large)

평가 지표

세부 정보 보기
boolq
최고 모델: Gemma-7B

평가 지표

세부 정보 보기
casehold
최고 모델: Custom Legal-BERT

평가 지표

세부 정보 보기
catbabi-lm-mode
최고 모델: Fast Weight Memory

평가 지표

세부 정보 보기
catbabi
최고 모델: Fast Weight Memory

평가 지표

세부 정보 보기
chaii-hindi-and-tamil-question-answering
최고 모델: MuCoT

평가 지표

세부 정보 보기
children-s-book-test
최고 모델: NSE

평가 지표

세부 정보 보기
clicr
최고 모델: Gated-Attention Reader

평가 지표

세부 정보 보기
codah
최고 모델: G-DAUG-Combo + RoBERTa-Large

평가 지표

세부 정보 보기
complex-cronquestions
최고 모델: SubGTR

평가 지표

세부 정보 보기
complexquestions
최고 모델: WebQA

평가 지표

세부 정보 보기
complexwebquestions
최고 모델: TOME-2

평가 지표

세부 정보 보기
conditionalqa
최고 모델: FiD

평가 지표

세부 정보 보기
copa
최고 모델: PaLM 540B (finetuned)

평가 지표

세부 정보 보기
coqa
최고 모델: GPT-3 175B (few-shot, k=32)

평가 지표

세부 정보 보기
drop-test
최고 모델: QDGAT (ensemble)

평가 지표

세부 정보 보기
duorc
최고 모델: Vector Database (ChromaDB)

평가 지표

세부 정보 보기
fairytaleqa
최고 모델: BART fine-tuned on FairytaleQA

평가 지표

세부 정보 보기
finqa
최고 모델: ELASTIC (RoBERTa-large)

평가 지표

세부 정보 보기
geoquestions1089
최고 모델: GeoQA2

평가 지표

세부 정보 보기
graphquestions
최고 모델: ChatGPT

평가 지표

세부 정보 보기
hotpotqa
최고 모델: Beam Retrieval

평가 지표

세부 정보 보기
hotpotqa-beir
최고 모델: BM25+CE

평가 지표

세부 정보 보기
hybridqa
최고 모델: MAFiD

평가 지표

세부 정보 보기
jaquad
최고 모델: BERT-Japanese

평가 지표

세부 정보 보기
mapeval-api
최고 모델: Claude-3.5-Sonnet (ReAct)

평가 지표

세부 정보 보기
mathematics
최고 모델: TP-Transformer

평가 지표

세부 정보 보기
mctest-160
최고 모델: syntax, frame, coreference, and word embedding features

평가 지표

세부 정보 보기
medmcqa-dev
최고 모델: MedMobile (3.8B)

평가 지표

세부 정보 보기
medqa-usmle
최고 모델: DRAGON + BioLinkBERT

평가 지표

세부 정보 보기
metaqa
최고 모델: T5-small+prolog

평가 지표

세부 정보 보기
mrqa-out-of-domain
최고 모델: RGX

평가 지표

세부 정보 보기
multirc
최고 모델: PaLM 540B (finetuned)

평가 지표

세부 정보 보기
multispanqa
최고 모델: RoBERTa-large Tagger + LIQUID (Ensemble)

평가 지표

세부 정보 보기
narrativeqa
최고 모델: Masque (NarrativeQA + MS MARCO)

평가 지표

세부 정보 보기
natural-questions
최고 모델: Atlas (full, Wiki-dec-2018 index)

평가 지표

세부 정보 보기
natural-questions-long
최고 모델: DensePhrases

평가 지표

세부 정보 보기
naturalqa
최고 모델: DPR

평가 지표

세부 정보 보기
newsqa
최고 모델: OpenAI/o3-mini-2025-01-31-high

평가 지표

세부 정보 보기
obqa
최고 모델: FLAN 137B (zero-shot)

평가 지표

세부 정보 보기
ott-qa
최고 모델: Fusion Retriever+ETC

평가 지표

세부 정보 보기
peerqa
최고 모델: GPT-4o-2024-08-06-128k

평가 지표

세부 정보 보기
piqa
최고 모델: LLaMA 65B (0-shot)

평가 지표

세부 정보 보기
popqa
최고 모델: SelfRAG-7b

평가 지표

세부 정보 보기
pubchemqa
최고 모델: BioMedGPT-10B

평가 지표

세부 정보 보기
pubmedqa
최고 모델: BioGPT-Large(1.5B)

평가 지표

세부 정보 보기
qasent
최고 모델: Attentive LSTM

평가 지표

세부 정보 보기
qasper
최고 모델: Longformer Encoder Decoder (base)

평가 지표

세부 정보 보기
quac
최고 모델: FlowQA (single model)

평가 지표

세부 정보 보기
quora-question-pairs
최고 모델: DeBERTa (large)

평가 지표

세부 정보 보기
recipeqa
최고 모델: multimodal+LXMERT+ConstrainedMaxPooling

평가 지표

세부 정보 보기
reclor
최고 모델: XLNet-large

평가 지표

세부 정보 보기
semevalcqa
최고 모델: HyperQA

평가 지표

세부 정보 보기
social-iqa
최고 모델: LLaMA 65B (zero-shot)

평가 지표

세부 정보 보기
sqa3d
최고 모델: CREMA

평가 지표

세부 정보 보기
squad1-1
최고 모델: LUKE

평가 지표

세부 정보 보기
squad1-1-dev
최고 모델: T5-11B

평가 지표

세부 정보 보기
squad2-0-dev
최고 모델: XLNet (single model)

평가 지표

세부 정보 보기
stepgame
최고 모델: TP-MANN

평가 지표

세부 정보 보기
story-cloze
최고 모델: Neo-6B (QA + WS)

평가 지표

세부 정보 보기
storycloze
최고 모델: BLOOMZ

평가 지표

세부 정보 보기
strategyqa
최고 모델: PaLM 2 (few-shot, CoT, SC)

평가 지표

세부 정보 보기
swag
최고 모델: DeBERTaV3large

평가 지표

세부 정보 보기
tat-qa
최고 모델: TagOp

평가 지표

세부 정보 보기
tempquestions
최고 모델: QAap

평가 지표

세부 정보 보기
torque
최고 모델: ECONET

평가 지표

세부 정보 보기
trecqa
최고 모델: TANDA DeBERTa-V3-Large + ALL

평가 지표

세부 정보 보기
triviaqa
최고 모델: PaLM 2-L (one-shot)

평가 지표

세부 정보 보기
truthfulqa
최고 모델: CoA

평가 지표

세부 정보 보기
tweetqa
최고 모델: ByT5

평가 지표

세부 정보 보기
vnhsge-civic
최고 모델: Bing Chat

평가 지표

세부 정보 보기
webquestions
최고 모델: FiE+PAQ

평가 지표

세부 정보 보기
webquestionssp
최고 모델: ChatGPT

평가 지표

세부 정보 보기
wikihop
최고 모델: BigBird-etc

평가 지표

세부 정보 보기
wikiqa
최고 모델: TANDA-RoBERTa (ASNQ, WikiQA)

평가 지표

세부 정보 보기
wikitablequestions
최고 모델: TabSQLify (col+row)

평가 지표

세부 정보 보기
yahoocqa
최고 모델: sMIM (1024) +

평가 지표

세부 정보 보기
adversarial-qa

평가 지표

세부 정보 보기
agi-eval

평가 지표

세부 정보 보기
ai2-kaggle-dataset

평가 지표

세부 정보 보기
bamboogle

평가 지표

세부 정보 보기
bbh

평가 지표

세부 정보 보기
chegeka

평가 지표

세부 정보 보기
cnn-daily-mail

평가 지표

세부 정보 보기
coco-visual-question-answering-vqa-real-1

평가 지표

세부 정보 보기
convfinqa

평가 지표

세부 정보 보기
cronquestions

평가 지표

세부 정보 보기
danetqa

평가 지표

세부 정보 보기
drop

평가 지표

세부 정보 보기
efficientqa-dev

평가 지표

세부 정보 보기
efficientqa-test

평가 지표

세부 정보 보기
egotaskqa

평가 지표

세부 정보 보기
fever

평가 지표

세부 정보 보기
fiqa-2018-beir

평가 지표

세부 정보 보기
fquad

평가 지표

세부 정보 보기
friendsqa

평가 지표

세부 정보 보기
hellaswag

평가 지표

세부 정보 보기
kilt-eli5

평가 지표

세부 정보 보기
kqa-pro

평가 지표

세부 정보 보기
mapeval-textual

평가 지표

세부 정보 보기
mctest-500

평가 지표

세부 정보 보기
medturkquad-medical-turkish-question

평가 지표

세부 정보 보기
mmlu

평가 지표

세부 정보 보기
molweni

평가 지표

세부 정보 보기
mrqa-2019

평가 지표

세부 정보 보기
ms-marco

평가 지표

세부 정보 보기
muld-hotpotqa

평가 지표

세부 정보 보기
muld-narrativeqa

평가 지표

세부 정보 보기
multiq

평가 지표

세부 정보 보기
multitq

평가 지표

세부 정보 보기
next-qa-open-ended-videoqa

평가 지표

세부 정보 보기
nq-beir

평가 지표

세부 정보 보기
openbookqa

평가 지표

세부 정보 보기
quality

평가 지표

세부 정보 보기
quasart-t

평가 지표

세부 정보 보기
race

평가 지표

세부 정보 보기
reverb

평가 지표

세부 정보 보기
ruopenbookqa

평가 지표

세부 정보 보기
sberquad

평가 지표

세부 정보 보기
scde

평가 지표

세부 정보 보기
schizzosquad

평가 지표

세부 정보 보기
simplequestions

평가 지표

세부 정보 보기
squad

평가 지표

세부 정보 보기
squad-adversarial

평가 지표

세부 정보 보기
squad-v2

평가 지표

세부 정보 보기
squad2-0

평가 지표

세부 정보 보기
squadshifts-amazon

평가 지표

세부 정보 보기
squadshifts-new-wiki

평가 지표

세부 정보 보기
squadshifts-nyt

평가 지표

세부 정보 보기
squadshifts-reddit

평가 지표

세부 정보 보기
tempqa-wd

평가 지표

세부 정보 보기
timequestions

평가 지표

세부 정보 보기
tiq

평가 지표

세부 정보 보기
uniprotqa

평가 지표

세부 정보 보기
vnhsge-biology

평가 지표

세부 정보 보기
vnhsge-chemistry

평가 지표

세부 정보 보기
vnhsge-english

평가 지표

세부 정보 보기
vnhsge-geography

평가 지표

세부 정보 보기
vnhsge-history

평가 지표

세부 정보 보기
vnhsge-literature

평가 지표

세부 정보 보기
vnhsge-mathematics-1

평가 지표

세부 정보 보기
vnhsge-physics

평가 지표

세부 정보 보기
websrc

평가 지표

세부 정보 보기
wikisql

평가 지표

세부 정보 보기