E Eval
평가 지표
0-shot answer-only
5-shot answer-only
5-shot cot
average
llm_model
model_url
organization
parameters
release_date
updated_time
평가 결과
이 벤치마크에서 각 모델의 성능 결과
비교 표
모델 이름 | 0-shot answer-only | 5-shot answer-only | 5-shot cot | average | llm_model | model_url | organization | parameters | release_date | updated_time |
---|---|---|---|---|---|---|---|---|---|---|
모델 1 | 89.0 | 88.7 | 88.8 | 88.8 | Qwen-72b | https://huggingface.co/Qwen | Qwen | 72B | 2023.8.5 | 2024.8.11 |