Common Sense Reasoning On Swag
평가 지표
Test
평가 결과
이 벤치마크에서 각 모델의 성능 결과
비교 표
모델 이름 | Test |
---|---|
roberta-a-robustly-optimized-bert-pretraining | 89.9 |
swag-a-large-scale-adversarial-dataset-for | 52.7 |
swag-a-large-scale-adversarial-dataset-for | 59.2 |
bert-pre-training-of-deep-bidirectional | 86.3 |
deberta-decoding-enhanced-bert-with | 90.8 |