HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

AgentGym-RL: Schulung von LLM-Agenten für Entscheidungen mit langer Horizonte durch mehrfach turnbasiertes Verstärkungslernen

AgentGym-RL: Schulung von LLM-Agenten für Entscheidungen mit langer Horizonte durch mehrfach turnbasiertes Verstärkungslernen

Abstract

Die Entwicklung autonomer LLM-Agenten, die eine Reihe intelligenter Entscheidungen treffen können, um komplexe, realweltbezogene Aufgaben zu lösen, ist ein sich rasch entwickelnder Forschungsbereich. Ähnlich wie die kognitive Entwicklung des Menschen sollen Agenten Wissen und Fähigkeiten durch Exploration und Interaktion mit ihrer Umgebung erwerben. Trotz erheblicher Fortschritte fehlt der Forschungsgemeinschaft weiterhin ein einheitliches, interaktives Rahmenwerk für Verstärkendes Lernen (Reinforcement Learning, RL), das solche Agenten effektiv von Grund auf trainieren kann – ohne auf überwachtes Feintuning (Supervised Fine-Tuning, SFT) angewiesen zu sein – in vielfältigen und realistischen Umgebungen. Um diese Lücke zu schließen, stellen wir AgentGym-RL vor, ein neues Framework zur Training von LLM-Agenten für interaktives Entscheidungsfinden über mehrere Interaktionsrunden hinweg mittels RL. Das Framework zeichnet sich durch eine modulare und entkoppelte Architektur aus, die hohe Flexibilität und Erweiterbarkeit gewährleistet. Es umfasst eine breite Palette realweltrelevanter Szenarien und unterstützt etablierte RL-Algorithmen. Darüber hinaus präsentieren wir ScalingInter-RL, eine Trainingsstrategie, die auf ein optimales Gleichgewicht zwischen Exploration und Exploitation sowie auf stabile RL-Optimierung abzielt. In frühen Trainingsphasen wird die Exploitation durch Begrenzung der Anzahl von Interaktionen gefördert; im Laufe der Zeit wird der Fokus schrittweise auf Exploration mit größeren Horizonten verlagert, um vielfältige Problemlösungsstrategien zu fördern. Auf diese Weise entwickeln die Agenten vielfältigere Verhaltensweisen und sind weniger anfällig für Kollaps bei langen Horizonten. Wir führen umfangreiche Experimente durch, um die Stabilität und Wirksamkeit sowohl des AgentGym-RL-Frameworks als auch der ScalingInter-RL-Strategie zu validieren. Unsere Agenten erreichen oder übertreffen kommerzielle Modelle in 27 Aufgaben über verschiedene Umgebungen hinweg. Wir geben zentrale Erkenntnisse weiter und stellen das vollständige AgentGym-RL-Framework – inklusive Code und Datensätze – öffentlich zur Verfügung, um die Forschungsgemeinschaft bei der Entwicklung der nächsten Generation intelligenter Agenten zu unterstützen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AgentGym-RL: Schulung von LLM-Agenten für Entscheidungen mit langer Horizonte durch mehrfach turnbasiertes Verstärkungslernen | Forschungsarbeiten | HyperAI