HyperAIHyperAI
vor 15 Tagen

ReST trifft auf ReAct: Selbstverbesserung für Multi-Step-Reasoning LLM-Agenten

Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar
ReST trifft auf ReAct: Selbstverbesserung für Multi-Step-Reasoning LLM-Agenten
Abstract

Die Beantwortung komplexer Fragen in natürlicher Sprache erfordert oft mehrstufiges Schließen und die Integration externer Informationen. Mehrere Systeme haben Wissensabfrage mit großen Sprachmodellen (LLM) kombiniert, um solche Fragen zu beantworten. Diese Systeme leiden jedoch unter verschiedenen Fehlfunktionen, und wir können sie nicht direkt end-to-end trainieren, um diese Fehler zu beheben, da die Interaktion mit externen Wissensquellen nicht differenzierbar ist. Um diese Defizite zu überwinden, definieren wir einen ReAct-ähnlichen LLM-Agenten, der in der Lage ist, sowohl zu schließen als auch auf externes Wissen zu agieren. Wir verfeinern den Agenten zudem durch eine ReST-ähnliche Methode, die iterativ auf vorherigen Verlaufstrajektorien trainiert und wachsende Batch-Verstärkungslernverfahren mit KI-Feedback nutzt, um kontinuierliche Selbstverbesserung und Selbst-Distillation zu ermöglichen. Ausgehend von einem vorgeschalteten großen Modell erreichen wir nach nur zwei Iterationen des Algorithmus ein feinabgestimmtes kleines Modell, das auf anspruchsvollen Benchmark-Aufgaben zur zusammengesetzten Fragebeantwortung eine vergleichbare Leistung erzielt, jedoch über zwei Größenordnungen weniger Parameter besitzt.

ReST trifft auf ReAct: Selbstverbesserung für Multi-Step-Reasoning LLM-Agenten | Neueste Forschungsarbeiten | HyperAI