Newsbench
평가 지표
jwp-mcqs
jwp-saqs
llm_model
model_url
organization
parameters
release_date
sa-mcqs
sa-saqs
updated_time
평가 결과
이 벤치마크에서 각 모델의 성능 결과
비교 표
모델 이름 | jwp-mcqs | jwp-saqs | llm_model | model_url | organization | parameters | release_date | sa-mcqs | sa-saqs | updated_time |
---|---|---|---|---|---|---|---|---|---|---|
모델 1 | 0.456 | 2.4438 | GPT-4-1106 | https://huggingface.co/UvaldeAI/gpt-4-1106-preview | OpenAI | N/A | 2023.11.6 | 0.9068 | 0.9 | 2024.6.4 |