Newsbench
評価指標
jwp-mcqs
jwp-saqs
llm_model
model_url
organization
parameters
release_date
sa-mcqs
sa-saqs
updated_time
評価結果
このベンチマークにおける各モデルのパフォーマンス結果
比較表
モデル名 | jwp-mcqs | jwp-saqs | llm_model | model_url | organization | parameters | release_date | sa-mcqs | sa-saqs | updated_time |
---|---|---|---|---|---|---|---|---|---|---|
モデル 1 | 0.456 | 2.4438 | GPT-4-1106 | https://huggingface.co/UvaldeAI/gpt-4-1106-preview | OpenAI | N/A | 2023.11.6 | 0.9068 | 0.9 | 2024.6.4 |