HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

EPO: Entropieregelisierte Politikoptimierung für LLM-Agenten Verstärkendes Lernen

Xu Wujiang Wentian Zhao Zhenting Wang Li Yu-Jhe Jin Can Jin Mingyu Mei Kai Wan Kun Metaxas Dimitris

EPO: Entropieregelisierte Politikoptimierung für LLM-Agenten
Verstärkendes Lernen

Abstract

Die Schulung von LLM-Agenten in mehrschrittigen Umgebungen mit spärlichen Belohnungen, bei denen die Durchführung einer einzelnen Aufgabe mehr als 30 Interaktionsphasen pro Episode erfordert, stellt eine grundlegende Herausforderung für das Verstärkungslernen dar. Wir identifizieren einen kritischen Ausfallzustand, der spezifisch für diesen Kontext ist: den Exploration-Exploitation-Kaskadenfehler. Dieser Kaskadenfehler beginnt mit einer vorzeitigen Konvergenz der Politik in frühen Trainingsphasen, bei der spärliche Rückmeldungen dazu führen, dass Agenten sich an fehlerhafte, niedrig-entropische Strategien binden. In späteren Trainingsphasen tritt dann ein Zusammenbruch der Politik auf, bei dem herkömmliche Entropie-Regularisierung kontraproduktiv wird und chaotische Exploration fördert, die das Training destabilisiert. Wir schlagen Entropy-regularized Policy Optimization (EPO) vor, einen allgemeinen Rahmen, der diesen Ausfallzyklus durch drei synergistische Mechanismen durchbricht: (1) die Anwendung von Entropie-Regularisierung in mehrschrittigen Umgebungen zur Verbesserung der Exploration, (2) einen Entropie-Smoothing-Regularisator, der die Politik-Entropie innerhalb historischer Durchschnittswerte begrenzt, um abrupte Schwankungen zu vermeiden, und (3) eine adaptive, phasenbasierte Gewichtung, die den Ausgleich zwischen Exploration und Exploitation während des gesamten Trainings gewährleistet. Unsere Analyse zeigt, dass EPO eine monoton abnehmende Entropie-Variation garantiert, während gleichzeitig Konvergenz sichergestellt bleibt. EPO erreicht bis zu 152 % bessere Leistung auf ScienceWorld und bis zu 19,8 % auf ALFWorld. Unsere Arbeit zeigt, dass mehrschrittige Umgebungen mit spärlichen Belohnungen grundlegend andere Steuerungsstrategien für die Entropie erfordern als herkömmliche RL-Methoden, was weitreichende Implikationen für die Schulung von LLM-Agenten hat.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EPO: Entropieregelisierte Politikoptimierung für LLM-Agenten Verstärkendes Lernen | Forschungsarbeiten | HyperAI