Math Word Problem Solving On Svamp 1 N

Execution Accuracy

평가 결과

이 벤치마크에서 각 모델의 성능 결과

		Paper Title
ATHENA (roberta-large)	67.8	ATHENA: Mathematical Reasoning with Thought Expansion
ATHENA (roberta-base)	52.5	ATHENA: Mathematical Reasoning with Thought Expansion

0 of 2 row(s) selected.