Naturalcodebench
평가 지표
humanevalscore
llm_model
model_url
ncb total score
ncb(en)-java
ncb(en)-python
ncb(en)-total
ncb(zh)-java
ncb(zh)-python
ncb(zh)-total
organization
parameters
release_date
updated_time
평가 결과
이 벤치마크에서 각 모델의 성능 결과
비교 표
모델 이름 | humanevalscore | llm_model | model_url | ncb total score | ncb(en)-java | ncb(en)-python | ncb(en)-total | ncb(zh)-java | ncb(zh)-python | ncb(zh)-total | organization | parameters | release_date | updated_time |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
모델 1 | 80.5 | GPT-4 | https://github.com/topics/gpt-4 | 52.8 | 51.1 | 55.7 | 53.4 | 51.1 | 53.4 | 52.3 | OpenAI | N/A | 2023.3.14 | 2024.8.11 |