CostBench: Bewertung von Multi-Turn-Kosten-optimalem Planen und Anpassen in dynamischen Umgebungen für LLM-Tool-Verwendungs-Agenten
Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Abstract
Aktuelle Bewertungen von Large Language Model (LLM)-Agenten konzentrieren sich hauptsächlich auf die Aufgabenerfüllung und vernachlässigen oft die Ressourceneffizienz und Anpassungsfähigkeit. Dabei wird eine entscheidende Fähigkeit übersehen: die Fähigkeit von Agenten, kosteneffiziente Pläne zu entwickeln und anzupassen, wenn sich die Umgebung ändert. Um diese Lücke zu schließen, stellen wir CostBench vor – einen skalierbaren, kostenzentrierten Benchmark, der die wirtschaftliche Entscheidungsfindung und das Nachplanen von Agenten bewerten soll. CostBench ist im Bereich der Reiseplanung angesiedelt und umfasst Aufgaben, die mittels verschiedener Sequenzen atomarer und zusammengesetzter Werkzeuge mit unterschiedlichen, anpassbaren Kosten gelöst werden können. Zudem unterstützt der Benchmark vier Arten dynamischer Störereignisse, wie etwa Werkzeugausfälle oder Kostenänderungen, um die Unvorhersehbarkeit der realen Welt nachzuahmen und Agenten zur Echtzeit-Anpassung zu zwingen. Die Bewertung führender offener und proprietärer Modelle auf CostBench offenbart eine erhebliche Lücke im Bereich kostensenstiver Planung: Agenten erkennen häufig nicht die kosteneffizientesten Lösungen in statischen Szenarien, wobei selbst GPT-5 bei den anspruchsvollsten Aufgaben eine Genauigkeitsrate von weniger als 75 % erreicht, und die Leistung unter dynamischen Bedingungen um etwa 40 % absinkt. Durch die Diagnose dieser Schwächen legt CostBench die Grundlage für die Entwicklung zukünftiger Agenten, die sowohl wirtschaftlich rational als auch robust sind.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.