Command Palette
Search for a command to run...
Strategieoptimierung Zur Ausbalancierung Der Agenten-Entropie (AEPO)
Agentic Entropy-Balanced Policy Optimization (AEPO) wurde im Oktober 2025 von einem gemeinsamen Forschungsteam der Renmin-Universität von China und Kuaishou vorgeschlagen. Die entsprechenden Forschungsergebnisse wurden in der Publikation „[…]“ veröffentlicht.Agentische entropieausgeglichene Richtlinienoptimierung".
AEPO ist ein Agenten-Reinforcement-Learning-Algorithmus (RL), der die Entropie während der Policy-Entfaltungs- und Policy-Aktualisierungsphasen ausgleicht. Er besteht aus zwei Kernkomponenten: (1) einem dynamischen Mechanismus zum Entropieausgleich, der globale und Branch-Sampling-Budgets adaptiv durch Entropie-Vorüberwachung zuweist und gleichzeitig Branch-Strafen für aufeinanderfolgende Tool-Aufrufe mit hoher Entropie verhängt, um übermäßiges Branching zu verhindern; und (2) einer Policy-Optimierung zum Entropieausgleich, die eine Stoppgradientenoperation in die Pruning-Terme mit hoher Entropie einfügt, um Gradienten auf Labels mit hoher Entropie zu erhalten und angemessen zu reskalieren, während gleichzeitig eine entropiebewusste Vorteilsschätzung integriert wird, um das Lernen von Labels mit hoher Unsicherheit zu priorisieren. Ergebnisse auf 14 anspruchsvollen Datensätzen zeigen, dass AEPO durchweg besser abschneidet als sieben gängige RL-Algorithmen.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.