Stabletoolbench
المقاييس
average
i1 category
i1 instruction
i1 tool
i2 category
i2 instruction
i3 instruction
llm_model
model_url
organization
parameters
release_date
updated_time
النتائج
نتائج أداء النماذج المختلفة على هذا المعيار القياسي
جدول المقارنة
اسم النموذج | average | i1 category | i1 instruction | i1 tool | i2 category | i2 instruction | i3 instruction | llm_model | model_url | organization | parameters | release_date | updated_time |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
النموذج 1 | 46.6±1.3 | 47.3±0.6 | 52.2±1.1 | 53.6±1.3 | 42.5±2.1 | 35.8±2.0 | 48.1±0.8 | GPT-3.5-Turbo-0613 (CoT) | https://community.openai.com/t/gpt-3-5-turbo-0613-function-calling-16k-context-window-and-lower-prices/263263 | OpenAI | N/A | 2023.6.13 | 2024.8.11 |