Common Sense Reasoning
Liste des benchmarks
Tous les benchmarks liés à cette tâche
arc-easy
Meilleur modèle: GAL 120B (0-shot)
Métriques
Voir les détails
big-bench-known-unknowns
Meilleur modèle: PaLM-540B (few-shot, k=5)
Métriques
Voir les détails
big-bench-logical-sequence
Meilleur modèle: Chinchilla-70B (few-shot, k=5)
Métriques
Voir les détails
codah
Meilleur modèle: BERT Large
Métriques
Voir les détails
commonsenseqa
Meilleur modèle: QA-GNN
Métriques
Voir les détails
event2mind-test
Meilleur modèle: EA-VQ-VAE
Métriques
Voir les détails
record
Meilleur modèle: ST-MoE-32B 269B (fine-tuned)
Métriques
Voir les détails
russian-event2mind
Meilleur modèle: araneum word2vec (skipgram) + GRU
Métriques
Voir les détails
swag
Meilleur modèle: DeBERTalarge
Métriques
Voir les détails
visual-dialog-v0-9-1
Meilleur modèle: NMN [kottur2018visual]
Métriques
Voir les détails
winogavil
Meilleur modèle: ViLT
Métriques
Voir les détails
winogrande
Meilleur modèle: PaLM 540B (0-shot)
Métriques
Voir les détails
arc-challenge
Métriques
Voir les détails
big-bench-disambiguation-qa
Métriques
Voir les détails
big-bench-causal-judgment
Métriques
Voir les détails
big-bench-date-understanding
Métriques
Voir les détails
big-bench-sports-understanding
Métriques
Voir les détails
big-bench-winowhy
Métriques
Voir les détails
crowdsource-qa
Métriques
Voir les détails
event2mind-dev
Métriques
Voir les détails
parus
Métriques
Voir les détails
rucos
Métriques
Voir les détails
rwsd
Métriques
Voir les détails
visual-dialog-v0-9
Métriques
Voir les détails