WebCoach: Selbstentwickelnde Web-Agenten mit Richtlinien für kontinuierliches Gedächtnis über Sitzungen hinweg
Genglin Liu Shijie Geng Sha Li Hejie Cui Sarah Zhang Xin Liu Tianyi Liu

Abstract
Multimodale LLM-gestützte Agenten haben in letzter Zeit beeindruckende Fähigkeiten im Web-Navigation demonstriert und ermöglichen es, komplexe Surfaufgaben über verschiedene Domänen hinweg zu bewältigen. Allerdings leiden aktuelle Agenten unter wiederkehrenden Fehlern und verfügen über keine Fähigkeit, aus vergangenen Erfahrungen über Sitzungen hinweg zu lernen, was ihre langfristige Robustheit und die Stichproben-Effizienz einschränkt. Wir stellen WebCoach vor, einen modellunabhängigen, selbst-evolvierenden Rahmen, der Web-Browsing-Agenten eine persistente, über Sitzungen hinweg bestehende Erinnerung verleiht und somit eine verbesserte langfristige Planung, Reflexion und kontinuierliches Lernen ohne Neutrainings ermöglicht. WebCoach besteht aus drei zentralen Komponenten: (1) einem WebCondenser, der rohe Navigationsprotokolle in präzise Zusammenfassungen standardisiert; (2) einem externen Speicher für episodische Erinnerungen, der vollständige Handlungsverläufe als episodische Erfahrungen organisiert; und (3) einem Coach, der auf Basis von Ähnlichkeit und Aktualität relevante Erfahrungen abruft und entscheidet, ob spezifische Aufgabenhinweise über Runtime-Hooks in den Agenten eingefügt werden sollen. Diese Architektur ermöglicht es Web-Agenten, über ihren natürlichen Kontextfenster hinaus auf langfristige Erinnerungen zuzugreifen und verbessert so ihre Robustheit bei komplexen Surfaufgaben. Darüber hinaus erreicht WebCoach durch kontinuierliche Pflege der episodischen Erinnerung aus neuen Navigationsverläufen eine Selbst-Evolution, wodurch Agenten sich im Laufe der Zeit verbessern können, ohne neu trainiert werden zu müssen. Evaluierungen auf der WebVoyager-Benchmark zeigen, dass WebCoach die Leistung von Browser-Agenten konsequent verbessert, unabhängig von drei verschiedenen LLM-Backbones. Mit einem 38-Billionen-Modell steigert WebCoach die Erfolgsrate von Aufgaben von 47 % auf 61 %, während die durchschnittliche Anzahl an Schritten entweder reduziert oder beibehalten wird. Besonders bemerkenswert ist, dass kleinere Basismodelle mit WebCoach eine Leistung erreichen, die vergleichbar ist mit der eines gleichen Web-Agenten, der GPT-4o verwendet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.