HyperAIHyperAI

Command Palette

Search for a command to run...

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin

Zusammenfassung

Während die Bewertung von Agenten zunehmend auf Aufgaben mit langer Horizontausrichtung fokussiert ist, betonen die meisten Benchmarks weiterhin lokale, schrittweise Schlussfolgerungen anstelle der globalen, restriktionsbasierten Optimierung (z. B. Zeit- und Finanzbudgets), die echte Planungsfähigkeiten erfordert. Gleichzeitig werden in bestehenden LLM-Planungsbenchmarks die aktive Informationsbeschaffung und die feinabgestimmten lokalen Beschränkungen, wie sie in realen Anwendungsszenarien typisch sind, unterschätzt. Um diesem Mangel zu begegnen, stellen wir DeepPlanning vor – ein anspruchsvolles Benchmark-Set für praktische Planungsaufgaben mit langer Horizontausrichtung. Es umfasst Aufgaben zur mehrtägigen Reiseplanung und zum Kauf mehrerer Produkte, die proaktive Informationsbeschaffung, lokale restriktionsbasierte Schlussfolgerung sowie globale restriktionsbasierte Optimierung erfordern. Die Evaluierung auf DeepPlanning zeigt, dass selbst fortschrittlichste agente LLMs mit diesen Aufgaben Schwierigkeiten haben, was die Bedeutung zuverlässiger expliziter Schlussfolgerungsmuster und paralleler Werkzeugnutzung zur Erreichung besserer Effektivitäts-Effizienz-Abwägungen unterstreicht. Eine Fehleranalyse identifiziert zudem vielversprechende Ansatzpunkte zur Verbesserung agenter LLMs über lange Planungshorizonte hinweg. Wir stellen den Quellcode und die Daten öffentlich zur Verfügung, um zukünftige Forschung zu unterstützen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp