HyperAI초신경

Math Word Problem Solving On Svamp 1 N

평가 지표

Execution Accuracy

평가 결과

이 벤치마크에서 각 모델의 성능 결과

비교 표
모델 이름Execution Accuracy
athena-mathematical-reasoning-with-thought67.8
athena-mathematical-reasoning-with-thought52.5