Common Sense Reasoning
基准测试列表
该任务相关的所有基准测试列表
arc-easy
最佳模型: GAL 120B (0-shot)
评估指标
查看详情
big-bench-known-unknowns
最佳模型: PaLM-540B (few-shot, k=5)
评估指标
查看详情
big-bench-logical-sequence
最佳模型: Chinchilla-70B (few-shot, k=5)
评估指标
查看详情
codah
最佳模型: BERT Large
评估指标
查看详情
commonsenseqa
最佳模型: QA-GNN
评估指标
查看详情
event2mind-test
最佳模型: EA-VQ-VAE
评估指标
查看详情
record
最佳模型: ST-MoE-32B 269B (fine-tuned)
评估指标
查看详情
russian-event2mind
最佳模型: araneum word2vec (skipgram) + GRU
评估指标
查看详情
swag
最佳模型: DeBERTalarge
评估指标
查看详情
visual-dialog-v0-9-1
最佳模型: NMN [kottur2018visual]
评估指标
查看详情
winogavil
最佳模型: ViLT
评估指标
查看详情
winogrande
最佳模型: PaLM 540B (0-shot)
评估指标
查看详情
arc-challenge
评估指标
查看详情
big-bench-disambiguation-qa
评估指标
查看详情
big-bench-causal-judgment
评估指标
查看详情
big-bench-date-understanding
评估指标
查看详情
big-bench-sports-understanding
评估指标
查看详情
big-bench-winowhy
评估指标
查看详情
crowdsource-qa
评估指标
查看详情
event2mind-dev
评估指标
查看详情
parus
评估指标
查看详情
rucos
评估指标
查看详情
rwsd
评估指标
查看详情
visual-dialog-v0-9
评估指标
查看详情