HyperAI超神経

Math Word Problem Solving On Svamp 1 N

評価指標

Execution Accuracy

評価結果

このベンチマークにおける各モデルのパフォーマンス結果

比較表
モデル名Execution Accuracy
athena-mathematical-reasoning-with-thought67.8
athena-mathematical-reasoning-with-thought52.5