HyperAI

Question Answering On Drop

Métriques

Accuracy

Résultats

Résultats de performance de divers modèles sur ce benchmark

Tableau comparatif
Nom du modèleAccuracy
large-language-models-can-self-improve78.2
large-language-models-can-self-improve83
large-language-models-can-self-improve71.7
large-language-models-can-self-improve60
large-language-models-can-self-improve70.6
large-language-models-can-self-improve76.2