Theoremqa
المقاييس
all
bool
csu0026ee
finance
float
integer
list
llm_model
math
model_url
option
organization
parameters
physics
release_date
updated_time
النتائج
نتائج أداء النماذج المختلفة على هذا المعيار القياسي
جدول المقارنة
اسم النموذج | all | bool | csu0026ee | finance | float | integer | list | llm_model | math | model_url | option | organization | parameters | physics | release_date | updated_time |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
النموذج 1 | 16.6 | 46.6 | 34.2 | 12.3 | 11.7 | 11.6 | 6.8 | GPT-3 | 15.8 | https://openai.com/index/gpt-3-apps/ | 27.8 | OpenAI | N/A | 2.3 | 2022.3.1 | 2023.12.6 |