Studenteval
評価指標
first failure
first success
humaneval
last failure
last success
llm_model
model_url
organization
parameters
release_date
updated_time
評価結果
このベンチマークにおける各モデルのパフォーマンス結果
比較表
モデル名 | first failure | first success | humaneval | last failure | last success | llm_model | model_url | organization | parameters | release_date | updated_time |
---|---|---|---|---|---|---|---|---|---|---|---|
モデル 1 | 11.76 | 44.84 | 48.10 | 13.90 | 47.40 | GPT-3.5-Turbo-0301 | https://platform.openai.com/docs/models | OpenAI | N/A | 2023.3.1 | 2024.8.11 |