HyperAI

Common Sense Reasoning On Rucos

Métriques

Average F1
EM

Résultats

Résultats de performance de divers modèles sur ce benchmark

Tableau comparatif
Nom du modèleAverage F1EM
Modèle 10.740.716
Modèle 20.210.202
Modèle 30.290.29
Modèle 40.680.658
Modèle 50.920.924
Modèle 60.730.716
Modèle 70.860.859
Modèle 80.210.204
Modèle 90.670.665
mt5-a-massively-multilingual-pre-trained-text0.570.562
russiansuperglue-a-russian-language0.930.89
Modèle 120.790.752
unreasonable-effectiveness-of-rule-based0.250.247
Modèle 140.230.224
russiansuperglue-a-russian-language0.260.252
unreasonable-effectiveness-of-rule-based0.260.257
Modèle 170.320.314
Modèle 180.350.347
Modèle 190.360.351
Modèle 200.810.764
Modèle 210.220.218
unreasonable-effectiveness-of-rule-based0.250.247