IterResearch: Neubewertung von Langfrist-Agenten durch markovsche Zustandsrekonstruktion

Abstract
Neuere Fortschritte bei tiefen Forschungsagenten haben gezeigt, dass autonome Wissenskonstruktion durch dynamisches Schließen über externe Quellen vielversprechend ist. Allerdings basieren bestehende Ansätze auf einem monokontextuellen Paradigma, bei dem alle Informationen in einem einzigen, wachsenden Kontextfenster gesammelt werden, was zu einer Kontextüberlastung und Störgeräusche führt und deren Effektivität bei Aufgaben mit langer Horizontdauer einschränkt. Wir stellen IterResearch vor, ein neuartiges iteratives tiefes Forschungsparadigma, das die langfristige Forschung als Markow-Entscheidungsprozess mit strategischer Wiederherstellung des Arbeitsraums neu formuliert. Indem wir einen sich stetig weiterentwickelnden Bericht als Gedächtnis beibehalten und Erkenntnisse periodisch synthetisieren, bewahren wir eine konsistente Schließfähigkeit über beliebige Erkundungstiefen hinweg. Darüber hinaus entwickeln wir Efficiency-Aware Policy Optimization (EAPO), einen Verstärkungslernrahmen, der effizientes Erkunden durch geometrische Belohnungsdiskontierung belohnt und eine stabile verteilte Ausbildung durch adaptives Downsampling ermöglicht. Umfassende Experimente zeigen, dass IterResearch gegenüber bestehenden Open-Source-Agenten erhebliche Verbesserungen erzielt – im Durchschnitt +14,5 Prozentpunkte auf sechs Benchmarks – und die Lücke zu führenden proprietären Systemen verkleinert. Bemerkenswerterweise demonstriert unser Paradigma eine bisher unerreichte Skalierbarkeit der Interaktionen, die sich auf bis zu 2048 Interaktionen erstreckt und dabei drastische Leistungssteigerungen (von 3,5 % auf 42,5 %) erzielt. Zudem fungiert es als effektive Prompt-Strategie und verbessert führende Modelle im Vergleich zu ReAct um bis zu 19,2 Prozentpunkte bei Aufgaben mit langer Horizontdauer. Diese Ergebnisse positionieren IterResearch als vielseitige Lösung für die langfristige Schlussfolgerung, die sowohl als trainierter Agent als auch als Prompt-Paradigma für führende Modelle wirksam ist.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.