HyperAIHyperAI

Command Palette

Search for a command to run...

ReST trifft auf ReAct: Selbstverbesserung für Multi-Step-Reasoning LLM-Agenten

Zusammenfassung

Die Beantwortung komplexer Fragen in natürlicher Sprache erfordert oft mehrstufiges Schließen und die Integration externer Informationen. Mehrere Systeme haben Wissensabfrage mit großen Sprachmodellen (LLM) kombiniert, um solche Fragen zu beantworten. Diese Systeme leiden jedoch unter verschiedenen Fehlfunktionen, und wir können sie nicht direkt end-to-end trainieren, um diese Fehler zu beheben, da die Interaktion mit externen Wissensquellen nicht differenzierbar ist. Um diese Defizite zu überwinden, definieren wir einen ReAct-ähnlichen LLM-Agenten, der in der Lage ist, sowohl zu schließen als auch auf externes Wissen zu agieren. Wir verfeinern den Agenten zudem durch eine ReST-ähnliche Methode, die iterativ auf vorherigen Verlaufstrajektorien trainiert und wachsende Batch-Verstärkungslernverfahren mit KI-Feedback nutzt, um kontinuierliche Selbstverbesserung und Selbst-Distillation zu ermöglichen. Ausgehend von einem vorgeschalteten großen Modell erreichen wir nach nur zwei Iterationen des Algorithmus ein feinabgestimmtes kleines Modell, das auf anspruchsvollen Benchmark-Aufgaben zur zusammengesetzten Fragebeantwortung eine vergleichbare Leistung erzielt, jedoch über zwei Größenordnungen weniger Parameter besitzt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp