vor 8 Stunden

Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin

Zusammenfassung

Während die Bewertung von Agenten zunehmend auf Aufgaben mit langer Horizontausrichtung fokussiert ist, betonen die meisten Benchmarks weiterhin lokale, schrittweise Schlussfolgerungen anstelle der globalen, restriktionsbasierten Optimierung (z. B. Zeit- und Finanzbudgets), die echte Planungsfähigkeiten erfordert. Gleichzeitig werden in bestehenden LLM-Planungsbenchmarks die aktive Informationsbeschaffung und die feinabgestimmten lokalen Beschränkungen, wie sie in realen Anwendungsszenarien typisch sind, unterschätzt. Um diesem Mangel zu begegnen, stellen wir DeepPlanning vor – ein anspruchsvolles Benchmark-Set für praktische Planungsaufgaben mit langer Horizontausrichtung. Es umfasst Aufgaben zur mehrtägigen Reiseplanung und zum Kauf mehrerer Produkte, die proaktive Informationsbeschaffung, lokale restriktionsbasierte Schlussfolgerung sowie globale restriktionsbasierte Optimierung erfordern. Die Evaluierung auf DeepPlanning zeigt, dass selbst fortschrittlichste agente LLMs mit diesen Aufgaben Schwierigkeiten haben, was die Bedeutung zuverlässiger expliziter Schlussfolgerungsmuster und paralleler Werkzeugnutzung zur Erreichung besserer Effektivitäts-Effizienz-Abwägungen unterstreicht. Eine Fehleranalyse identifiziert zudem vielversprechende Ansatzpunkte zur Verbesserung agenter LLMs über lange Planungshorizonte hinweg. Wir stellen den Quellcode und die Daten öffentlich zur Verfügung, um zukünftige Forschung zu unterstützen.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Stunden

LLM

Intelligente Fragebeantwortung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Stunden

LLM

Intelligente Fragebeantwortung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters