Multi Task Language Understanding
Benchmark-Liste
Alle Benchmarks für diese Aufgabe
bbh-alg
Bestes Modell: code-davinci-002 175B (CoT)
Metriken
Details anzeigen
bbh-nlp
Bestes Modell: Flan-PaLM 540B (3-shot, fine-tuned, CoT + SC)
Metriken
Details anzeigen
mgsm
Metriken
Details anzeigen
mmlu
Bestes Modell: ds-r1(671b)
Metriken
Details anzeigen
mmlu-5-shot
Bestes Modell: Sakalti/ultiima-78B
Metriken
Details anzeigen