HyperAIHyperAI

Command Palette

Search for a command to run...

vor 15 Tagen

IterResearch: Neubewertung von Langfrist-Agenten durch markovsche Zustandsrekonstruktion

IterResearch: Neubewertung von Langfrist-Agenten durch markovsche Zustandsrekonstruktion

Abstract

Neuere Fortschritte bei tiefen Forschungsagenten haben gezeigt, dass autonome Wissenskonstruktion durch dynamisches Schließen über externe Quellen vielversprechend ist. Allerdings basieren bestehende Ansätze auf einem monokontextuellen Paradigma, bei dem alle Informationen in einem einzigen, wachsenden Kontextfenster gesammelt werden, was zu einer Kontextüberlastung und Störgeräusche führt und deren Effektivität bei Aufgaben mit langer Horizontdauer einschränkt. Wir stellen IterResearch vor, ein neuartiges iteratives tiefes Forschungsparadigma, das die langfristige Forschung als Markow-Entscheidungsprozess mit strategischer Wiederherstellung des Arbeitsraums neu formuliert. Indem wir einen sich stetig weiterentwickelnden Bericht als Gedächtnis beibehalten und Erkenntnisse periodisch synthetisieren, bewahren wir eine konsistente Schließfähigkeit über beliebige Erkundungstiefen hinweg. Darüber hinaus entwickeln wir Efficiency-Aware Policy Optimization (EAPO), einen Verstärkungslernrahmen, der effizientes Erkunden durch geometrische Belohnungsdiskontierung belohnt und eine stabile verteilte Ausbildung durch adaptives Downsampling ermöglicht. Umfassende Experimente zeigen, dass IterResearch gegenüber bestehenden Open-Source-Agenten erhebliche Verbesserungen erzielt – im Durchschnitt +14,5 Prozentpunkte auf sechs Benchmarks – und die Lücke zu führenden proprietären Systemen verkleinert. Bemerkenswerterweise demonstriert unser Paradigma eine bisher unerreichte Skalierbarkeit der Interaktionen, die sich auf bis zu 2048 Interaktionen erstreckt und dabei drastische Leistungssteigerungen (von 3,5 % auf 42,5 %) erzielt. Zudem fungiert es als effektive Prompt-Strategie und verbessert führende Modelle im Vergleich zu ReAct um bis zu 19,2 Prozentpunkte bei Aufgaben mit langer Horizontdauer. Diese Ergebnisse positionieren IterResearch als vielseitige Lösung für die langfristige Schlussfolgerung, die sowohl als trainierter Agent als auch als Prompt-Paradigma für führende Modelle wirksam ist.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
IterResearch: Neubewertung von Langfrist-Agenten durch markovsche Zustandsrekonstruktion | Forschungsarbeiten | HyperAI