vor 3 Monaten

Zusammenfassung

Aktuelle Bewertungen von Large Language Model (LLM)-Agenten konzentrieren sich hauptsächlich auf die Aufgabenerfüllung und vernachlässigen oft die Ressourceneffizienz und Anpassungsfähigkeit. Dabei wird eine entscheidende Fähigkeit übersehen: die Fähigkeit von Agenten, kosteneffiziente Pläne zu entwickeln und anzupassen, wenn sich die Umgebung ändert. Um diese Lücke zu schließen, stellen wir CostBench vor – einen skalierbaren, kostenzentrierten Benchmark, der die wirtschaftliche Entscheidungsfindung und das Nachplanen von Agenten bewerten soll. CostBench ist im Bereich der Reiseplanung angesiedelt und umfasst Aufgaben, die mittels verschiedener Sequenzen atomarer und zusammengesetzter Werkzeuge mit unterschiedlichen, anpassbaren Kosten gelöst werden können. Zudem unterstützt der Benchmark vier Arten dynamischer Störereignisse, wie etwa Werkzeugausfälle oder Kostenänderungen, um die Unvorhersehbarkeit der realen Welt nachzuahmen und Agenten zur Echtzeit-Anpassung zu zwingen. Die Bewertung führender offener und proprietärer Modelle auf CostBench offenbart eine erhebliche Lücke im Bereich kostensenstiver Planung: Agenten erkennen häufig nicht die kosteneffizientesten Lösungen in statischen Szenarien, wobei selbst GPT-5 bei den anspruchsvollsten Aufgaben eine Genauigkeitsrate von weniger als 75 % erreicht, und die Leistung unter dynamischen Bedingungen um etwa 40 % absinkt. Durch die Diagnose dieser Schwächen legt CostBench die Grundlage für die Entwicklung zukünftiger Agenten, die sowohl wirtschaftlich rational als auch robust sind.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

CostBench: Bewertung von Multi-Turn-Kosten-optimalem Planen und Anpassen in dynamischen Umgebungen für LLM-Tool-Verwendungs-Agenten

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CostBench: Bewertung von Multi-Turn-Kosten-optimalem Planen und Anpassen in dynamischen Umgebungen für LLM-Tool-Verwendungs-Agenten

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CostBench: Bewertung von Multi-Turn-Kosten-optimalem Planen und Anpassen in dynamischen Umgebungen für LLM-Tool-Verwendungs-Agenten

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters