HyperAI超神経

Trajectory Planning On Toolbench

評価指標

Win rate

評価結果

このベンチマークにおける各モデルのパフォーマンス結果

比較表
モデル名Win rate
fortify-the-shortest-stave-in-attention71.5
swissnyf-tool-grounded-llm-agents-for-black86.54
toolllm-facilitating-large-language-models-to70.4