HyperAI

Question Answering

قائمة المعايير القياسية

جميع المعايير القياسية المتعلقة بهذه المهمة

jd-product-question-answer
أفضل نموذج: PAAG

المقاييس

عرض التفاصيل
aristo-kaggle-allen-ai-8th-grade-questions
أفضل نموذج: Cardal

المقاييس

عرض التفاصيل
aviationqa
أفضل نموذج: KGT5

المقاييس

عرض التفاصيل
babi
أفضل نموذج: STM

المقاييس

عرض التفاصيل
bioasq
أفضل نموذج: BioLinkBERT (large)

المقاييس

عرض التفاصيل
blurb
أفضل نموذج: BioLinkBERT (large)

المقاييس

عرض التفاصيل
boolq
أفضل نموذج: Gemma-7B

المقاييس

عرض التفاصيل
casehold
أفضل نموذج: Custom Legal-BERT

المقاييس

عرض التفاصيل
catbabi-lm-mode
أفضل نموذج: Fast Weight Memory

المقاييس

عرض التفاصيل
catbabi
أفضل نموذج: Fast Weight Memory

المقاييس

عرض التفاصيل
chaii-hindi-and-tamil-question-answering
أفضل نموذج: MuCoT

المقاييس

عرض التفاصيل
children-s-book-test
أفضل نموذج: NSE

المقاييس

عرض التفاصيل
clicr
أفضل نموذج: Gated-Attention Reader

المقاييس

عرض التفاصيل
codah
أفضل نموذج: G-DAUG-Combo + RoBERTa-Large

المقاييس

عرض التفاصيل
complex-cronquestions
أفضل نموذج: SubGTR

المقاييس

عرض التفاصيل
complexquestions
أفضل نموذج: WebQA

المقاييس

عرض التفاصيل
complexwebquestions
أفضل نموذج: TOME-2

المقاييس

عرض التفاصيل
conditionalqa
أفضل نموذج: FiD

المقاييس

عرض التفاصيل
copa
أفضل نموذج: PaLM 540B (finetuned)

المقاييس

عرض التفاصيل
coqa
أفضل نموذج: GPT-3 175B (few-shot, k=32)

المقاييس

عرض التفاصيل
drop-test
أفضل نموذج: QDGAT (ensemble)

المقاييس

عرض التفاصيل
duorc
أفضل نموذج: Vector Database (ChromaDB)

المقاييس

عرض التفاصيل
fairytaleqa
أفضل نموذج: BART fine-tuned on FairytaleQA

المقاييس

عرض التفاصيل
finqa
أفضل نموذج: ELASTIC (RoBERTa-large)

المقاييس

عرض التفاصيل
geoquestions1089
أفضل نموذج: GeoQA2

المقاييس

عرض التفاصيل
graphquestions
أفضل نموذج: ChatGPT

المقاييس

عرض التفاصيل
hotpotqa
أفضل نموذج: Beam Retrieval

المقاييس

عرض التفاصيل
hotpotqa-beir
أفضل نموذج: BM25+CE

المقاييس

عرض التفاصيل
hybridqa
أفضل نموذج: MAFiD

المقاييس

عرض التفاصيل
jaquad
أفضل نموذج: BERT-Japanese

المقاييس

عرض التفاصيل
mapeval-api
أفضل نموذج: Claude-3.5-Sonnet (ReAct)

المقاييس

عرض التفاصيل
mathematics
أفضل نموذج: TP-Transformer

المقاييس

عرض التفاصيل
mctest-160
أفضل نموذج: syntax, frame, coreference, and word embedding features

المقاييس

عرض التفاصيل
medmcqa-dev
أفضل نموذج: MedMobile (3.8B)

المقاييس

عرض التفاصيل
medqa-usmle
أفضل نموذج: DRAGON + BioLinkBERT

المقاييس

عرض التفاصيل
metaqa
أفضل نموذج: T5-small+prolog

المقاييس

عرض التفاصيل
mrqa-out-of-domain
أفضل نموذج: RGX

المقاييس

عرض التفاصيل
multirc
أفضل نموذج: PaLM 540B (finetuned)

المقاييس

عرض التفاصيل
multispanqa
أفضل نموذج: RoBERTa-large Tagger + LIQUID (Ensemble)

المقاييس

عرض التفاصيل
narrativeqa
أفضل نموذج: Masque (NarrativeQA + MS MARCO)

المقاييس

عرض التفاصيل
natural-questions
أفضل نموذج: Atlas (full, Wiki-dec-2018 index)

المقاييس

عرض التفاصيل
natural-questions-long
أفضل نموذج: DensePhrases

المقاييس

عرض التفاصيل
naturalqa
أفضل نموذج: DPR

المقاييس

عرض التفاصيل
newsqa
أفضل نموذج: OpenAI/o3-mini-2025-01-31-high

المقاييس

عرض التفاصيل
obqa
أفضل نموذج: FLAN 137B (zero-shot)

المقاييس

عرض التفاصيل
ott-qa
أفضل نموذج: Fusion Retriever+ETC

المقاييس

عرض التفاصيل
peerqa
أفضل نموذج: GPT-4o-2024-08-06-128k

المقاييس

عرض التفاصيل
piqa
أفضل نموذج: LLaMA 65B (0-shot)

المقاييس

عرض التفاصيل
popqa
أفضل نموذج: SelfRAG-7b

المقاييس

عرض التفاصيل
pubchemqa
أفضل نموذج: BioMedGPT-10B

المقاييس

عرض التفاصيل
pubmedqa
أفضل نموذج: BioGPT-Large(1.5B)

المقاييس

عرض التفاصيل
qasent
أفضل نموذج: Attentive LSTM

المقاييس

عرض التفاصيل
qasper
أفضل نموذج: Longformer Encoder Decoder (base)

المقاييس

عرض التفاصيل
quac
أفضل نموذج: FlowQA (single model)

المقاييس

عرض التفاصيل
quora-question-pairs
أفضل نموذج: DeBERTa (large)

المقاييس

عرض التفاصيل
recipeqa
أفضل نموذج: multimodal+LXMERT+ConstrainedMaxPooling

المقاييس

عرض التفاصيل
reclor
أفضل نموذج: XLNet-large

المقاييس

عرض التفاصيل
semevalcqa
أفضل نموذج: HyperQA

المقاييس

عرض التفاصيل
social-iqa
أفضل نموذج: LLaMA 65B (zero-shot)

المقاييس

عرض التفاصيل
sqa3d
أفضل نموذج: CREMA

المقاييس

عرض التفاصيل
squad1-1
أفضل نموذج: LUKE

المقاييس

عرض التفاصيل
squad1-1-dev
أفضل نموذج: T5-11B

المقاييس

عرض التفاصيل
squad2-0-dev
أفضل نموذج: XLNet (single model)

المقاييس

عرض التفاصيل
stepgame
أفضل نموذج: TP-MANN

المقاييس

عرض التفاصيل
story-cloze
أفضل نموذج: Neo-6B (QA + WS)

المقاييس

عرض التفاصيل
storycloze
أفضل نموذج: BLOOMZ

المقاييس

عرض التفاصيل
strategyqa
أفضل نموذج: PaLM 2 (few-shot, CoT, SC)

المقاييس

عرض التفاصيل
swag
أفضل نموذج: DeBERTaV3large

المقاييس

عرض التفاصيل
tat-qa
أفضل نموذج: TagOp

المقاييس

عرض التفاصيل
tempquestions
أفضل نموذج: QAap

المقاييس

عرض التفاصيل
torque
أفضل نموذج: ECONET

المقاييس

عرض التفاصيل
trecqa
أفضل نموذج: TANDA DeBERTa-V3-Large + ALL

المقاييس

عرض التفاصيل
triviaqa
أفضل نموذج: PaLM 2-L (one-shot)

المقاييس

عرض التفاصيل
truthfulqa
أفضل نموذج: CoA

المقاييس

عرض التفاصيل
tweetqa
أفضل نموذج: ByT5

المقاييس

عرض التفاصيل
vnhsge-civic
أفضل نموذج: Bing Chat

المقاييس

عرض التفاصيل
webquestions
أفضل نموذج: FiE+PAQ

المقاييس

عرض التفاصيل
webquestionssp
أفضل نموذج: ChatGPT

المقاييس

عرض التفاصيل
wikihop
أفضل نموذج: BigBird-etc

المقاييس

عرض التفاصيل
wikiqa
أفضل نموذج: TANDA-RoBERTa (ASNQ, WikiQA)

المقاييس

عرض التفاصيل
wikitablequestions
أفضل نموذج: TabSQLify (col+row)

المقاييس

عرض التفاصيل
yahoocqa
أفضل نموذج: sMIM (1024) +

المقاييس

عرض التفاصيل
adversarial-qa

المقاييس

عرض التفاصيل
agi-eval

المقاييس

عرض التفاصيل
ai2-kaggle-dataset

المقاييس

عرض التفاصيل
bamboogle

المقاييس

عرض التفاصيل
bbh

المقاييس

عرض التفاصيل
chegeka

المقاييس

عرض التفاصيل
cnn-daily-mail

المقاييس

عرض التفاصيل
coco-visual-question-answering-vqa-real-1

المقاييس

عرض التفاصيل
convfinqa

المقاييس

عرض التفاصيل
cronquestions

المقاييس

عرض التفاصيل
danetqa

المقاييس

عرض التفاصيل
drop

المقاييس

عرض التفاصيل
efficientqa-dev

المقاييس

عرض التفاصيل
efficientqa-test

المقاييس

عرض التفاصيل
egotaskqa

المقاييس

عرض التفاصيل
fever

المقاييس

عرض التفاصيل
fiqa-2018-beir

المقاييس

عرض التفاصيل
fquad

المقاييس

عرض التفاصيل
friendsqa

المقاييس

عرض التفاصيل
hellaswag

المقاييس

عرض التفاصيل
kilt-eli5

المقاييس

عرض التفاصيل
kqa-pro

المقاييس

عرض التفاصيل
mapeval-textual

المقاييس

عرض التفاصيل
mctest-500

المقاييس

عرض التفاصيل
medturkquad-medical-turkish-question

المقاييس

عرض التفاصيل
mmlu

المقاييس

عرض التفاصيل
molweni

المقاييس

عرض التفاصيل
mrqa-2019

المقاييس

عرض التفاصيل
ms-marco

المقاييس

عرض التفاصيل
muld-hotpotqa

المقاييس

عرض التفاصيل
muld-narrativeqa

المقاييس

عرض التفاصيل
multiq

المقاييس

عرض التفاصيل
multitq

المقاييس

عرض التفاصيل
next-qa-open-ended-videoqa

المقاييس

عرض التفاصيل
nq-beir

المقاييس

عرض التفاصيل
openbookqa

المقاييس

عرض التفاصيل
quality

المقاييس

عرض التفاصيل
quasart-t

المقاييس

عرض التفاصيل
race

المقاييس

عرض التفاصيل
reverb

المقاييس

عرض التفاصيل
ruopenbookqa

المقاييس

عرض التفاصيل
sberquad

المقاييس

عرض التفاصيل
scde

المقاييس

عرض التفاصيل
schizzosquad

المقاييس

عرض التفاصيل
simplequestions

المقاييس

عرض التفاصيل
squad

المقاييس

عرض التفاصيل
squad-adversarial

المقاييس

عرض التفاصيل
squad-v2

المقاييس

عرض التفاصيل
squad2-0

المقاييس

عرض التفاصيل
squadshifts-amazon

المقاييس

عرض التفاصيل
squadshifts-new-wiki

المقاييس

عرض التفاصيل
squadshifts-nyt

المقاييس

عرض التفاصيل
squadshifts-reddit

المقاييس

عرض التفاصيل
tempqa-wd

المقاييس

عرض التفاصيل
timequestions

المقاييس

عرض التفاصيل
tiq

المقاييس

عرض التفاصيل
uniprotqa

المقاييس

عرض التفاصيل
vnhsge-biology

المقاييس

عرض التفاصيل
vnhsge-chemistry

المقاييس

عرض التفاصيل
vnhsge-english

المقاييس

عرض التفاصيل
vnhsge-geography

المقاييس

عرض التفاصيل
vnhsge-history

المقاييس

عرض التفاصيل
vnhsge-literature

المقاييس

عرض التفاصيل
vnhsge-mathematics-1

المقاييس

عرض التفاصيل
vnhsge-physics

المقاييس

عرض التفاصيل
websrc

المقاييس

عرض التفاصيل
wikisql

المقاييس

عرض التفاصيل