Command Palette
Search for a command to run...
Kai Zhang Xiangchao Chen Bo Liu Tianci Xue Zeyi Liao et al

Abstract
Ein langfristiges Ziel von Sprachagenten besteht darin, durch eigene Erfahrungen zu lernen und sich kontinuierlich zu verbessern, um schließlich Menschen bei komplexen, realen Aufgaben zu übertrumpfen. Die Trainingsmethoden für Agenten, die auf Erfahrungsdaten mittels Verstärkendem Lernen basieren, bleiben jedoch in vielen Umgebungen schwierig, da diese entweder keine überprüfbaren Belohnungen bieten (z. B. Webseiten) oder ineffiziente, langfristige Simulationsläufe erfordern (z. B. mehrschrittige Werkzeugnutzung). Infolgedessen stützen sich die meisten aktuellen Agenten auf eine überwachte Feinabstimmung an Expertendaten, was schwer skalierbar ist und eine schlechte Generalisierbarkeit aufweist. Dieser Einschränkung liegt die Natur von Expertendemonstrationen zugrunde: Sie erfassen nur einen engen Bereich an Szenarien und exponieren den Agenten gegenüber einer begrenzten Vielfalt an Umgebungen. Wir adressieren diese Schwäche durch ein Mittelwegparadigma, das wir „frühe Erfahrung“ nennen: Interaktionsdaten, die durch die eigenen Aktionen des Agents generiert werden, wobei die resultierenden zukünftigen Zustände als Supervision dienen, ohne dass Belohnungssignale erforderlich sind. Innerhalb dieses Paradigmas untersuchen wir zwei Strategien zur Nutzung solcher Daten: (1) Implizites Weltmodell, bei dem die gesammelten Zustände dazu dienen, die Politik an den Dynamiken der Umgebung zu verankern; und (2) Selbstreflexion, bei der der Agent aus suboptimalen Aktionen lernt, um seine Schlussfolgerungskapazität und Entscheidungsfindung zu verbessern. Wir evaluieren unsere Ansätze an acht unterschiedlichen Umgebungen und mehreren Modellfamilien. Unsere Methoden zeigen konsistent eine verbesserte Effektivität sowie eine bessere Generalisierung auf neue Domänen und unterstreichen den Wert früher Erfahrung. Darüber hinaus liefern unsere Ergebnisse in Umgebungen mit überprüfbaren Belohnungen vielversprechende Hinweise darauf, dass frühe Erfahrung eine solide Grundlage für nachfolgendes Verstärkendes Lernen darstellt und somit eine praktikable Brücke zwischen Imitationslernen und vollständig erfahrungsbasierten Agenten bildet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.