HyperAIHyperAI

Command Palette

Search for a command to run...

vor 17 Tagen

CostBench: Bewertung von Multi-Turn-Kosten-optimalem Planen und Anpassen in dynamischen Umgebungen für LLM-Tool-Verwendungs-Agenten

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

CostBench: Bewertung von Multi-Turn-Kosten-optimalem Planen und Anpassen in dynamischen Umgebungen für LLM-Tool-Verwendungs-Agenten

Abstract

Aktuelle Bewertungen von Large Language Model (LLM)-Agenten konzentrieren sich hauptsächlich auf die Aufgabenerfüllung und vernachlässigen oft die Ressourceneffizienz und Anpassungsfähigkeit. Dabei wird eine entscheidende Fähigkeit übersehen: die Fähigkeit von Agenten, kosteneffiziente Pläne zu entwickeln und anzupassen, wenn sich die Umgebung ändert. Um diese Lücke zu schließen, stellen wir CostBench vor – einen skalierbaren, kostenzentrierten Benchmark, der die wirtschaftliche Entscheidungsfindung und das Nachplanen von Agenten bewerten soll. CostBench ist im Bereich der Reiseplanung angesiedelt und umfasst Aufgaben, die mittels verschiedener Sequenzen atomarer und zusammengesetzter Werkzeuge mit unterschiedlichen, anpassbaren Kosten gelöst werden können. Zudem unterstützt der Benchmark vier Arten dynamischer Störereignisse, wie etwa Werkzeugausfälle oder Kostenänderungen, um die Unvorhersehbarkeit der realen Welt nachzuahmen und Agenten zur Echtzeit-Anpassung zu zwingen. Die Bewertung führender offener und proprietärer Modelle auf CostBench offenbart eine erhebliche Lücke im Bereich kostensenstiver Planung: Agenten erkennen häufig nicht die kosteneffizientesten Lösungen in statischen Szenarien, wobei selbst GPT-5 bei den anspruchsvollsten Aufgaben eine Genauigkeitsrate von weniger als 75 % erreicht, und die Leistung unter dynamischen Bedingungen um etwa 40 % absinkt. Durch die Diagnose dieser Schwächen legt CostBench die Grundlage für die Entwicklung zukünftiger Agenten, die sowohl wirtschaftlich rational als auch robust sind.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CostBench: Bewertung von Multi-Turn-Kosten-optimalem Planen und Anpassen in dynamischen Umgebungen für LLM-Tool-Verwendungs-Agenten | Forschungsarbeiten | HyperAI