HyperAI超神経

Arithmetic Reasoning On Multiarith

評価指標

Accuracy

評価結果

このベンチマークにおける各モデルのパフォーマンス結果

比較表
モデル名Accuracy
large-language-models-are-zero-shot-reasoners17.7
large-language-models-are-zero-shot-reasoners78.7