Logical Reasoning On Big Bench Temporal
Métriques
Accuracy
Résultats
Résultats de performance de divers modèles sur ce benchmark
Tableau comparatif
Nom du modèle | Accuracy |
---|---|
bloomberggpt-a-large-language-model-for | 29.2 |
scaling-language-models-methods-analysis-1 | 19.0 |
bloomberggpt-a-large-language-model-for | 23.6 |
palm-2-technical-report-1 | 100 |
bloomberggpt-a-large-language-model-for | 39.6 |
bloomberggpt-a-large-language-model-for | 36.8 |
training-compute-optimal-large-language | 32.0 |
bloomberggpt-a-large-language-model-for | 21.2 |
palm-2-technical-report-1 | 96.4 |