HyperAI

Trajectory Planning On Toolbench

Métriques

Win rate

Résultats

Résultats de performance de divers modèles sur ce benchmark

Tableau comparatif
Nom du modèleWin rate
fortify-the-shortest-stave-in-attention71.5
swissnyf-tool-grounded-llm-agents-for-black86.54
toolllm-facilitating-large-language-models-to70.4