Command Palette
Search for a command to run...
DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints
DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints
Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin
Zusammenfassung
Während die Bewertung von Agenten zunehmend auf Aufgaben mit langer Horizontausrichtung fokussiert ist, betonen die meisten Benchmarks weiterhin lokale, schrittweise Schlussfolgerungen anstelle der globalen, restriktionsbasierten Optimierung (z. B. Zeit- und Finanzbudgets), die echte Planungsfähigkeiten erfordert. Gleichzeitig werden in bestehenden LLM-Planungsbenchmarks die aktive Informationsbeschaffung und die feinabgestimmten lokalen Beschränkungen, wie sie in realen Anwendungsszenarien typisch sind, unterschätzt. Um diesem Mangel zu begegnen, stellen wir DeepPlanning vor – ein anspruchsvolles Benchmark-Set für praktische Planungsaufgaben mit langer Horizontausrichtung. Es umfasst Aufgaben zur mehrtägigen Reiseplanung und zum Kauf mehrerer Produkte, die proaktive Informationsbeschaffung, lokale restriktionsbasierte Schlussfolgerung sowie globale restriktionsbasierte Optimierung erfordern. Die Evaluierung auf DeepPlanning zeigt, dass selbst fortschrittlichste agente LLMs mit diesen Aufgaben Schwierigkeiten haben, was die Bedeutung zuverlässiger expliziter Schlussfolgerungsmuster und paralleler Werkzeugnutzung zur Erreichung besserer Effektivitäts-Effizienz-Abwägungen unterstreicht. Eine Fehleranalyse identifiziert zudem vielversprechende Ansatzpunkte zur Verbesserung agenter LLMs über lange Planungshorizonte hinweg. Wir stellen den Quellcode und die Daten öffentlich zur Verfügung, um zukünftige Forschung zu unterstützen.