Studenteval
评估指标
first failure
first success
humaneval
last failure
last success
llm_model
model_url
organization
parameters
release_date
updated_time
评测结果
各个模型在此基准测试上的表现结果
比较表格
模型名称 | first failure | first success | humaneval | last failure | last success | llm_model | model_url | organization | parameters | release_date | updated_time |
---|---|---|---|---|---|---|---|---|---|---|---|
模型 1 | 11.76 | 44.84 | 48.10 | 13.90 | 47.40 | GPT-3.5-Turbo-0301 | https://platform.openai.com/docs/models | OpenAI | N/A | 2023.3.1 | 2024.8.11 |