HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Zusammenfassung: Freigabe von Langzeit-Suchintelligenz durch Kontextzusammenfassung

Zusammenfassung: Freigabe von Langzeit-Suchintelligenz durch Kontextzusammenfassung

Abstract

Web-basierte Agenten, die auf großen Sprachmodellen (Large Language Models, LLM) beruhen, zeigen eine starke Leistung bei wissensintensiven Aufgaben. Allerdings sind sie in Paradigmen wie ReAct durch die Beschränkungen des Kontextfensters eingeschränkt. Komplexe Abfragen, die mehrere Entitäten, verflochtene Beziehungen und hohe Unsicherheit beinhalten, erfordern umfangreiche Suchzyklen, die das verfügbare Kontextbudget rasch erschöpfen, bevor eine vollständige Lösung erreicht wird. Um dieser Herausforderung zu begegnen, stellen wir ReSum vor – ein neuartiges Paradigma, das eine unbegrenzte Exploration durch periodische Zusammenfassung des Kontextverlaufs ermöglicht. ReSum wandelt sich stetig erweiternde Interaktionsverläufe in kompakte Schlussfolgerungszustände um und bewahrt so die Aufmerksamkeit gegenüber früheren Entdeckungen, ohne dabei an die Kontextgrenzen gebunden zu sein. Zur Anpassung an dieses Paradigma schlagen wir ReSum-GRPO vor, das GRPO mit segmentierter Trajektorien-Training und Vorteils-Weitergabe kombiniert, um die Agenten mit der auf Zusammenfassungen basierenden Schlussfolgerung vertraut zu machen. Umfangreiche Experimente mit Web-Agenten unterschiedlicher Größenordnung an drei Benchmarks zeigen, dass ReSum gegenüber ReAct im Durchschnitt eine absolute Verbesserung von 4,5 % erzielt, wobei sich nach der ReSum-GRPO-Training noch zusätzliche Verbesserungen von bis zu 8,2 % ergeben. Besonders hervorzuheben ist, dass unser WebResummer-30B (eine ReSum-GRPO-optimierte Version von WebSailor-30B) mit lediglich 1.000 Trainingsbeispielen 33,3 % Pass@1 auf BrowseComp-zh und 18,3 % auf BrowseComp-en erreicht und damit bestehende Open-Source-Web-Agenten übertrifft.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zusammenfassung: Freigabe von Langzeit-Suchintelligenz durch Kontextzusammenfassung | Forschungsarbeiten | HyperAI