Command Palette
Search for a command to run...
DeepAgent: Ein allgemeiner Schlussfolgerungs-Agent mit skalierbaren Werkzeugen

Abstract
Große Reasoning-Modelle haben starke Problemlösungsfähigkeiten demonstriert, doch für viele praktische Aufgaben sind externe Werkzeuge sowie Interaktionen über längere Zeiträume erforderlich. Bestehende Agenten-Frameworks folgen typischerweise vordefinierten Arbeitsabläufen, was die Autonomie und die globale Aufgabenbearbeitung einschränkt. In diesem Artikel stellen wir DeepAgent vor – einen end-to-end tiefen Reasoning-Agenten, der autonomes Denken, Werkzeugentdeckung und Aktionsexekution innerhalb eines einzigen, kohärenten Reasoning-Prozesses durchführt. Um die Herausforderungen langfristiger Interaktionen zu bewältigen, insbesondere die Explosion des Kontextumfangs durch mehrfache Werkzeugaufrufe und die Akkumulation von Interaktionsverläufen, führen wir eine autonome Speicherkompression (Memory Folding) ein, die vergangene Interaktionen in strukturierte Erinnerungstypen – episodische, Arbeits- und Werkzeuggedächtnisse – komprimiert. Dies verringert die Fehlerakkumulation, während kritische Informationen erhalten bleiben. Um die effiziente und stabile Lernung allgemeiner Werkzeugnutzung zu ermöglichen, entwickeln wir eine end-to-end-Verstärkungslernstrategie namens ToolPO, die LLM-simulierte APIs nutzt und eine Vorteilszuweisung für Werkzeugaufrufe einsetzt, um feinabgestimmte Verantwortung auf die jeweiligen Werkzeugaufruf-Token zu verteilen. Umfangreiche Experimente an acht Benchmarks – einschließlich allgemeiner Werkzeugnutzungsaufgaben (ToolBench, API-Bank, TMDB, Spotify, ToolHop) und nachgeschalteter Anwendungen (ALFWorld, WebShop, GAIA, HLE) – zeigen, dass DeepAgent sowohl in Szenarien mit vorgegebenen Werkzeugen als auch bei offenen Werkzeugretrieval-Szenarien konsistent die Baselines übertrifft. Diese Arbeit stellt einen Schritt hin zu allgemeineren und leistungsfähigeren Agenten für reale Anwendungen dar. Der Quellcode und eine Demo sind unter https://github.com/RUC-NLPIR/DeepAgent verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.