Stabletoolbench
평가 지표
average
i1 category
i1 instruction
i1 tool
i2 category
i2 instruction
i3 instruction
llm_model
model_url
organization
parameters
release_date
updated_time
평가 결과
이 벤치마크에서 각 모델의 성능 결과
비교 표
모델 이름 | average | i1 category | i1 instruction | i1 tool | i2 category | i2 instruction | i3 instruction | llm_model | model_url | organization | parameters | release_date | updated_time |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
모델 1 | 46.6±1.3 | 47.3±0.6 | 52.2±1.1 | 53.6±1.3 | 42.5±2.1 | 35.8±2.0 | 48.1±0.8 | GPT-3.5-Turbo-0613 (CoT) | https://community.openai.com/t/gpt-3-5-turbo-0613-function-calling-16k-context-window-and-lower-prices/263263 | OpenAI | N/A | 2023.6.13 | 2024.8.11 |