Halueval
평가 지표
dialogue
general
llm_model
model_url
organization
parameters
qa
release_date
summarization
updated_time
평가 결과
이 벤치마크에서 각 모델의 성능 결과
비교 표
모델 이름 | dialogue | general | llm_model | model_url | organization | parameters | qa | release_date | summarization | updated_time |
---|---|---|---|---|---|---|---|---|---|---|
모델 1 | 72.40 | 79.44 | ChatGPT | https://chatgpt.com/ | OpenAI | N/A | 62.59 | 2022.11.30 | 58.53 | 2023.10.23 |