Search for a command to run...
PlanBench-XL: Evaluation der Langzeitplanung von LLM Tool-Use Agents in großskaligen Tool-Ökosystemen