Common Sense Reasoning
ベンチマークリスト
このタスクに関連するすべてのベンチマーク
arc-easy
最高モデル: GAL 120B (0-shot)
評価指標
詳細を表示
big-bench-known-unknowns
最高モデル: PaLM-540B (few-shot, k=5)
評価指標
詳細を表示
big-bench-logical-sequence
最高モデル: Chinchilla-70B (few-shot, k=5)
評価指標
詳細を表示
codah
最高モデル: BERT Large
評価指標
詳細を表示
commonsenseqa
最高モデル: QA-GNN
評価指標
詳細を表示
event2mind-test
最高モデル: EA-VQ-VAE
評価指標
詳細を表示
record
最高モデル: ST-MoE-32B 269B (fine-tuned)
評価指標
詳細を表示
russian-event2mind
最高モデル: araneum word2vec (skipgram) + GRU
評価指標
詳細を表示
swag
最高モデル: DeBERTalarge
評価指標
詳細を表示
visual-dialog-v0-9-1
最高モデル: NMN [kottur2018visual]
評価指標
詳細を表示
winogavil
最高モデル: ViLT
評価指標
詳細を表示
winogrande
最高モデル: PaLM 540B (0-shot)
評価指標
詳細を表示
arc-challenge
評価指標
詳細を表示
big-bench-disambiguation-qa
評価指標
詳細を表示
big-bench-causal-judgment
評価指標
詳細を表示
big-bench-date-understanding
評価指標
詳細を表示
big-bench-sports-understanding
評価指標
詳細を表示
big-bench-winowhy
評価指標
詳細を表示
crowdsource-qa
評価指標
詳細を表示
event2mind-dev
評価指標
詳細を表示
parus
評価指標
詳細を表示
rucos
評価指標
詳細を表示
rwsd
評価指標
詳細を表示
visual-dialog-v0-9
評価指標
詳細を表示