HyperAI超神経

Common Sense Reasoning On Rucos

評価指標

Average F1
EM

評価結果

このベンチマークにおける各モデルのパフォーマンス結果

比較表
モデル名Average F1EM
モデル 10.740.716
モデル 20.210.202
モデル 30.290.29
モデル 40.680.658
モデル 50.920.924
モデル 60.730.716
モデル 70.860.859
モデル 80.210.204
モデル 90.670.665
mt5-a-massively-multilingual-pre-trained-text0.570.562
russiansuperglue-a-russian-language0.930.89
モデル 120.790.752
unreasonable-effectiveness-of-rule-based0.250.247
モデル 140.230.224
russiansuperglue-a-russian-language0.260.252
unreasonable-effectiveness-of-rule-based0.260.257
モデル 170.320.314
モデル 180.350.347
モデル 190.360.351
モデル 200.810.764
モデル 210.220.218
unreasonable-effectiveness-of-rule-based0.250.247