vor einem Monat

EPO: Entropieregelisierte Politikoptimierung für LLM-Agenten Verstärkendes Lernen

Xu Wujiang Wentian Zhao Zhenting Wang Li Yu-Jhe Jin Can Jin Mingyu Mei Kai Wan Kun Metaxas Dimitris

Abstract

Die Schulung von LLM-Agenten in mehrschrittigen Umgebungen mit spärlichen Belohnungen, bei denen die Durchführung einer einzelnen Aufgabe mehr als 30 Interaktionsphasen pro Episode erfordert, stellt eine grundlegende Herausforderung für das Verstärkungslernen dar. Wir identifizieren einen kritischen Ausfallzustand, der spezifisch für diesen Kontext ist: den Exploration-Exploitation-Kaskadenfehler. Dieser Kaskadenfehler beginnt mit einer vorzeitigen Konvergenz der Politik in frühen Trainingsphasen, bei der spärliche Rückmeldungen dazu führen, dass Agenten sich an fehlerhafte, niedrig-entropische Strategien binden. In späteren Trainingsphasen tritt dann ein Zusammenbruch der Politik auf, bei dem herkömmliche Entropie-Regularisierung kontraproduktiv wird und chaotische Exploration fördert, die das Training destabilisiert. Wir schlagen Entropy-regularized Policy Optimization (EPO) vor, einen allgemeinen Rahmen, der diesen Ausfallzyklus durch drei synergistische Mechanismen durchbricht: (1) die Anwendung von Entropie-Regularisierung in mehrschrittigen Umgebungen zur Verbesserung der Exploration, (2) einen Entropie-Smoothing-Regularisator, der die Politik-Entropie innerhalb historischer Durchschnittswerte begrenzt, um abrupte Schwankungen zu vermeiden, und (3) eine adaptive, phasenbasierte Gewichtung, die den Ausgleich zwischen Exploration und Exploitation während des gesamten Trainings gewährleistet. Unsere Analyse zeigt, dass EPO eine monoton abnehmende Entropie-Variation garantiert, während gleichzeitig Konvergenz sichergestellt bleibt. EPO erreicht bis zu 152 % bessere Leistung auf ScienceWorld und bis zu 19,8 % auf ALFWorld. Unsere Arbeit zeigt, dass mehrschrittige Umgebungen mit spärlichen Belohnungen grundlegend andere Steuerungsstrategien für die Entropie erfordern als herkömmliche RL-Methoden, was weitreichende Implikationen für die Schulung von LLM-Agenten hat.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

EPO: Entropieregelisierte Politikoptimierung für LLM-Agenten Verstärkendes Lernen

Xu Wujiang Wentian Zhao Zhenting Wang Li Yu-Jhe Jin Can Jin Mingyu Mei Kai Wan Kun Metaxas Dimitris

Abstract

KI mit KI entwickeln

Hyper Newsletters