HyperAI초신경

Reading Comprehension On Muserc

평가 지표

Average F1
EM

평가 결과

이 벤치마크에서 각 모델의 성능 결과

비교 표
모델 이름Average F1EM
russiansuperglue-a-russian-language0.587 0.242
russiansuperglue-a-russian-language0.8060.42
모델 30.6870.278
모델 40.760.427
unreasonable-effectiveness-of-rule-based0.450.071
모델 60.7690.446
모델 70.6460.327
mt5-a-massively-multilingual-pre-trained-text0.8440.543
모델 90.830.561
모델 100.7420.399
모델 110.7290.333
모델 120.6730.364
모델 130.706 0.308
모델 140.6420.319
모델 150.9410.819
모델 160.639 0.239
모델 170.8150.537
모델 180.6530.221
unreasonable-effectiveness-of-rule-based0.6710.237
모델 200.740.546
unreasonable-effectiveness-of-rule-based0.0 0.0
모델 220.711 0.324