HyperAI초신경

Common Sense Reasoning On Rucos

평가 지표

Average F1
EM

평가 결과

이 벤치마크에서 각 모델의 성능 결과

비교 표
모델 이름Average F1EM
모델 10.740.716
모델 20.210.202
모델 30.290.29
모델 40.680.658
모델 50.920.924
모델 60.730.716
모델 70.860.859
모델 80.210.204
모델 90.670.665
mt5-a-massively-multilingual-pre-trained-text0.570.562
russiansuperglue-a-russian-language0.930.89
모델 120.790.752
unreasonable-effectiveness-of-rule-based0.250.247
모델 140.230.224
russiansuperglue-a-russian-language0.260.252
unreasonable-effectiveness-of-rule-based0.260.257
모델 170.320.314
모델 180.350.347
모델 190.360.351
모델 200.810.764
모델 210.220.218
unreasonable-effectiveness-of-rule-based0.250.247