HyperAI超神経

Arithmetic Reasoning On Game Of 24

評価指標

Success

評価結果

このベンチマークにおける各モデルのパフォーマンス結果

比較表
モデル名Success
tree-of-thoughts-deliberate-problem-solving-10.74