Command Palette
Search for a command to run...
AgentFold: Langfristige Web-Agenten mit proaktiver Kontextverwaltung
AgentFold: Langfristige Web-Agenten mit proaktiver Kontextverwaltung
Zusammenfassung
LLM-basierte Web-Agenten zeigen großes Versprechen für die Informationsbeschaffung, doch ihre Wirksamkeit bei Aufgaben mit langem Horizont wird durch einen grundlegenden Kompromiss bei der Kontextverwaltung beeinträchtigt. Bestehende ReAct-basierte Agenten leiden unter Kontextüberlastung, da sie geräuschbehaftete, rohe Historien ansammeln, während Methoden, die die gesamte Historie bei jedem Schritt festgelegt zusammenfassen, das irreversible Verlust kritischer Details riskieren. Um diese Herausforderungen anzugehen, stellen wir AgentFold vor – ein neuartiges Agentenparadigma, das auf einer proaktiven Kontextverwaltung basiert und sich an dem menschlichen kognitiven Prozess der retrospektiven Konsolidierung orientiert. AgentFold betrachtet seinen Kontext nicht als passiven Protokollspeicher, sondern als dynamischen kognitiven Arbeitsraum, der aktiv gestaltet wird. Bei jedem Schritt lernt es, eine „Faltung“-Operation auszuführen, die seine historische Entwicklung auf mehreren Skalen verwalten kann: Es kann feinkörnige Zusammenfassungen durchführen, um wesentliche, fein abgestimmte Details zu bewahren, oder tiefe Konsolidierungen vornehmen, um ganze mehrschrittige Teil-Aufgaben abstrahiert zu verarbeiten. Die Ergebnisse auf etablierten Benchmarks sind beeindruckend: Mit einfacher überwachter Feinabstimmung (ohne kontinuierliches Vortraining oder RL) erreicht unser AgentFold-30B-A3B-Modell 36,2 % auf BrowseComp und 47,3 % auf BrowseComp-ZH. Insbesondere übertrifft diese Leistung nicht nur Open-Source-Modelle deutlich größerer Skalierung, wie beispielsweise DeepSeek-V3.1-671B-A37B, sondern auch führende proprietäre Agenten wie OpenAI’s o4-mini.