HyperAI초신경

Trajectory Planning On Toolbench

평가 지표

Win rate

평가 결과

이 벤치마크에서 각 모델의 성능 결과

비교 표
모델 이름Win rate
fortify-the-shortest-stave-in-attention71.5
swissnyf-tool-grounded-llm-agents-for-black86.54
toolllm-facilitating-large-language-models-to70.4