Multi Task Language Understanding
Liste des benchmarks
Tous les benchmarks liés à cette tâche
bbh-alg
Meilleur modèle: code-davinci-002 175B (CoT)
Métriques
Voir les détails
bbh-nlp
Meilleur modèle: Flan-PaLM 540B (3-shot, fine-tuned, CoT + SC)
Métriques
Voir les détails
mgsm
Métriques
Voir les détails
mmlu
Meilleur modèle: ds-r1(671b)
Métriques
Voir les détails
mmlu-5-shot
Meilleur modèle: Sakalti/ultiima-78B
Métriques
Voir les détails