HyperAI초신경

Theoremqa

평가 지표

all
bool
csu0026ee
finance
float
integer
list
llm_model
math
model_url
option
organization
parameters
physics
release_date
updated_time

평가 결과

이 벤치마크에서 각 모델의 성능 결과

비교 표
모델 이름allboolcsu0026eefinancefloatintegerlistllm_modelmathmodel_urloptionorganizationparametersphysicsrelease_dateupdated_time
모델 116.646.634.212.311.711.66.8GPT-315.8https://openai.com/index/gpt-3-apps/27.8OpenAIN/A2.32022.3.12023.12.6