Math Word Problem Solving On Svamp 1 N
Metriken
Execution Accuracy
Ergebnisse
Leistungsergebnisse verschiedener Modelle zu diesem Benchmark
Vergleichstabelle
Modellname | Execution Accuracy |
---|---|
athena-mathematical-reasoning-with-thought | 67.8 |
athena-mathematical-reasoning-with-thought | 52.5 |